● 在奧地利未來博物館中,電腦以深度學習重組出作者的樣子。作者供圖

近年許多新興科技迅速發展,例如機械翻譯、語音識別、人臉識別和機械人技術等,事實上所有資訊科技發展都源於深度學習。深度學習依靠不同的學習模式,本文將重點探討監督學習這一模式。

監督學習與我們在學校學習十分相似。在學校裏老師授以學生知識,讓他們懂得思考和回應。而監督學習則是輸入大量的訓練數據給一個程式而得出一個算法,當有新的數據的時候,程式就能自主分析和給予回應或預測。而算法的靈感來自神經生物學中的神經網絡,例如想要利用人工智能去預測這個夏天的電影票房,就需要先收集大量相關的數據作訓練之用,包括電影類型、語言、主角、片長、故事背景及其票房等,從而得出一條算法,日後在輸入新電影的相關資料後,就能預測它的票房。

1. 深度學習的應用

在2016年,Google開發的深度學習軟件AlphaGo因戰勝世界知名的職業圍棋選手而開始為人所知。但早在1997年,由IBM開發專門用以分析西洋棋的超級電腦Deep Blue(深藍)就擊敗了當時的西洋棋世界冠軍。可見深度學習可達至十分高超的能力程度。

另外,硬幣分類也是深度學習的其中一個應用。以重量和尺寸作為參數去判斷硬幣的種類,例如直徑在24毫米和28毫米之間,而且重量在8克以下的就是一元硬幣。

圖像說明也是另一個例子,輸入一張圖片到深度學習軟件系統後,它可以分析圖片中的物體並生成一句形容圖片的說明。

深度學習有利於解決有關假設(即數據上有關連)的問題。事實上深度學習作為眾多科技的基礎,其應用十分廣泛,日常生活例子包括網頁搜索、圖像識別、過濾垃圾郵件、電影推薦系統和自駕車等。

2. 自然語言和機器翻譯

根據Sennrich於2016年所發布的數據中,基於短語的統計機器翻譯(Phrase-based statistical machine translation)和基於句法的統計機器翻譯 (Syntax-based statistical machine translation)的翻譯質素在2013年至2017年期間的升幅穩定但不大。相反,自然語言機器翻譯的翻譯質素從2015年起急速上升,甚至超越了有更長發展時間的前兩種機器翻譯。可見自然語言機器翻譯在未來的發展潛力更大。

從背後原理來看,基於短語的統計機器翻譯會把一句句子分拆成幾部分再分別翻譯,然後運用語法規則去重組句子。由於需要越來越多語法規則,機器翻譯系統會變得十分複雜。而自然語言機器翻譯就是利用大量的文章去學習語法規則和推論,包括拼寫、結構、風格等,例如風格就是基於統計去根據概率生成下一個詞語。更深入一點來說的話,根據分布假設,相似語境中的詞彙具有相似的含義,因此可以進行合理的推斷。

3. 挑戰

開發一個成熟的深度學習系統需要大量而正確的訓練數據,但現時數據來源有限而需要長時間去檢查,一個小錯誤足以影響許多後續的計算。

再者,即使輸入大量的訓練數據給電腦,也未必能夠準確地預測或判斷。就以圖像識別為例,有些物體即使是人類也未必能準確無誤地辨認清楚,更何況是電腦?在ImageNet的大型視覺識別挑戰中,參賽者需要把多於一百萬張圖片分門別類到一千個類別裏,而當中有些類別的錯誤率甚高,例如把狐猴錯認為猴子和把花豹錯認為美洲豹。因此未來的圖像辨識發展將集中在如何降低錯誤率。

■洪文正 香港新興科技教育協會

簡介:本會培育科普人才, 提高各界對科技創意應用的認識,為香港青年提供更多機會參與國際性及大中華地區的科技創意活動 ,詳情可瀏覽www.hknetea.org。

隔星期五見報