【攜手共研】開發系統檢驗AI有否「學錯東西」

◆ 張成志接受香港文匯報專訪，介紹正研發的「深度學習系統測試技術」。香港文匯報記者攝

兩地專家研發程式測試漏洞增人面識別聲紋辨識準確度

隨着電腦硬件及軟件發展，人工智能的運用也被應用到搜索引擎、電子地圖、智能翻譯等不同場景上。要推動人工智能的發展，與其「深度學習」的技術有關，這讓系統擁有着如人一般的識別及判斷能力。香港科技大學與北京大學、南方科技大學組成的專家團隊日前接受香港文匯報的線上、線下專訪，介紹團隊正研發的「深度學習系統測試技術」，有望為人工智能提供自動查錯功能，讓程式員能及早發現程式漏洞，從而提升人面識別、聲紋辨識等的安全性。◆香港文匯報記者詹漢基

「深度學習系統測試技術」的研究項目由港科大計算機科學及工程學系教授張成志、北大計算機學院長聘副教授熊英飛、南科大計算機科學與工程系助理教授劉燁龐合作研發，去年獲得創新及科技基金下的「內地與香港聯合資助計劃」撥款170萬港元。

熊英飛接受香港文匯報視頻訪問時表示，現在很多軟件都有深度學習的模塊，例如手機的人面識別，就是識別解鎖人是否機主本人。

他解釋指，深度學習系統會通過「機主」與「他人」的照片進行對照，「若『機主』的照片是在辦公室裏面拍的，系統可能會錯誤認為只要出現在辦公室的，都會是機主本人，這就有很大問題了。」

數據樣本出錯難發現

熊英飛指，正常的深度學習模型需要運用很多訓練數據，「雖然模型學會了答案，但質量如何，潛藏的bug（漏洞）其實我們不太知道。」當中的漏洞包括程序員寫代碼時寫錯了符號；或者是收集所得的數據有問題，讓數據上出現「誤解」。

張成志以狼的照片為例，「在大部分狼的圖像裏面，背景都是白色的雪地，那麼模型訓練出來的時候，識別的不是『狼』的主體，而是背景的顏色」，因此雪地裏的「狗」容易被誤以為是「狼」。

在傳統軟件系統裏面，由於缺陷大多源於代碼出錯，發現出錯後大多能想辦法修復，可控程度較高；但深度學習系統除了會出現代碼錯誤，還有數據樣本的因素，大大提高了查找缺陷的難度。熊英飛表示，深度學習有一個耗時較長的訓練階段，「若訓練過程報錯，那麼前面的訓練就會作廢，浪費了資源。」

自動查錯提修復方案

針對深度學習系統的缺陷主要來源於「代碼」及「數據」，團隊研發「深度學習系統測試技術」能夠自動「查錯」，分類檢測缺陷，並關聯到原因及修復方案。

劉燁龐介紹指，目前測試深度學習的方式主要是以人工方式測試，「尤其是針對數據多樣性的問題，暫時還沒有成熟的商業化產品。」有關技術以「深度學習預言定義方法」及「深度學習白盒分析方法」為支撐，期望在短時間內能為深度學習系統找出漏洞。

大型科技公司都會運用深度學習技術，「目前已經有大的客機集團對我們的技術感到興趣，比如數據多樣性的缺陷、代碼的bug所導致的系統崩潰，他們日常都會遇到。」

至於測試系統的未來應用場景，劉燁龐表示，在圖像識別、聲紋識別，以及翻譯系統等，「我們提出了一個通用的測試方式。」

他表示，在圖像方面，可以通過計算機視覺技術將圖片進行比例分割，將圖像的不同區域標註，並對有可能是主題的物件進行搜索；但如果應用到聲紋識別等方面，如何自動識別主體、背景及噪音是箇中關鍵。

劉燁龐坦言，上述技術尚未成熟，因此會成為測試系統的巨大挑戰。

讀文匯報PDF版面

評論

相關推薦