◆ 張成志接受香港文匯報專訪,介紹正研發的「深度學習系統測試技術」。香港文匯報記者 攝

兩地專家研發程式測試漏洞 增人面識別聲紋辨識準確度

隨着電腦硬件及軟件發展,人工智能的運用也被應用到搜索引擎、電子地圖、智能翻譯等不同場景上。要推動人工智能的發展,與其「深度學習」的技術有關,這讓系統擁有着如人一般的識別及判斷能力。香港科技大學與北京大學、南方科技大學組成的專家團隊日前接受香港文匯報的線上、線下專訪,介紹團隊正研發的「深度學習系統測試技術」,有望為人工智能提供自動查錯功能,讓程式員能及早發現程式漏洞,從而提升人面識別、聲紋辨識等的安全性。◆香港文匯報記者 詹漢基

「深度學習系統測試技術」的研究項目由港科大計算機科學及工程學系教授張成志、北大計算機學院長聘副教授熊英飛、南科大計算機科學與工程系助理教授劉燁龐合作研發,去年獲得創新及科技基金下的「內地與香港聯合資助計劃」撥款170萬港元。

熊英飛接受香港文匯報視頻訪問時表示,現在很多軟件都有深度學習的模塊,例如手機的人面識別,就是識別解鎖人是否機主本人。

他解釋指,深度學習系統會通過「機主」與「他人」的照片進行對照,「若『機主』的照片是在辦公室裏面拍的,系統可能會錯誤認為只要出現在辦公室的,都會是機主本人,這就有很大問題了。」

數據樣本出錯難發現

熊英飛指,正常的深度學習模型需要運用很多訓練數據,「雖然模型學會了答案,但質量如何,潛藏的bug(漏洞)其實我們不太知道。」當中的漏洞包括程序員寫代碼時寫錯了符號;或者是收集所得的數據有問題,讓數據上出現「誤解」。

張成志以狼的照片為例,「在大部分狼的圖像裏面,背景都是白色的雪地,那麼模型訓練出來的時候,識別的不是『狼』的主體,而是背景的顏色」,因此雪地裏的「狗」容易被誤以為是「狼」。

在傳統軟件系統裏面,由於缺陷大多源於代碼出錯,發現出錯後大多能想辦法修復,可控程度較高;但深度學習系統除了會出現代碼錯誤,還有數據樣本的因素,大大提高了查找缺陷的難度。熊英飛表示,深度學習有一個耗時較長的訓練階段,「若訓練過程報錯,那麼前面的訓練就會作廢,浪費了資源。」

自動查錯提修復方案

針對深度學習系統的缺陷主要來源於「代碼」及「數據」,團隊研發「深度學習系統測試技術」能夠自動「查錯」,分類檢測缺陷,並關聯到原因及修復方案。

劉燁龐介紹指,目前測試深度學習的方式主要是以人工方式測試,「尤其是針對數據多樣性的問題,暫時還沒有成熟的商業化產品。」有關技術以「深度學習預言定義方法」及「深度學習白盒分析方法」為支撐,期望在短時間內能為深度學習系統找出漏洞。

大型科技公司都會運用深度學習技術,「目前已經有大的客機集團對我們的技術感到興趣,比如數據多樣性的缺陷、代碼的bug所導致的系統崩潰,他們日常都會遇到。」

至於測試系統的未來應用場景,劉燁龐表示,在圖像識別、聲紋識別,以及翻譯系統等,「我們提出了一個通用的測試方式。」

他表示,在圖像方面,可以通過計算機視覺技術將圖片進行比例分割,將圖像的不同區域標註,並對有可能是主題的物件進行搜索;但如果應用到聲紋識別等方面,如何自動識別主體、背景及噪音是箇中關鍵。

劉燁龐坦言,上述技術尚未成熟,因此會成為測試系統的巨大挑戰。