智為未來：大數據輸入系統訓練模型測結果

香港文匯報百科啟智 2022-07-14

◆ AI技術使用的巨量數據，被稱為大數據。大數據具備五個特徵，包括：規模、速度、多樣性、真實性和價值。作者供圖

　　之前的一連串文章，探究了AI如何應用於日常生活之中，相信大家已了解到AI是十分強大的，可以代替或幫助人類進行日常工作，甚至可以做到人類未必做到的事情。了解AI背後的原理可以提高我們運用AI科技的意識，有助我們於人機共存時代生活和工作。接下來，我們會跟大家講解AI模型是如何訓練的，以及AI的感知能力。

　　AI功能十分龐大，究竟AI模型是如何訓練的？相信大家對於運用搜尋引擎並不陌生，舉個例子，當我們想搜尋有關某部電影的資訊時，會使用搜尋引擎找尋我們希望得到的資訊。這個例子其實運用了「輸入（input）—處理（process）—輸出（output）」，簡稱「IPO」框架。我們會先輸入電影名稱，然後等待電腦回應並處理，最後得以輸出我們希望得到的資訊。

　　其實AI系統的IPO框架與上述操作十分相似，AI工程師會將巨量數據，亦即我們常聽到的大數據（big data）輸入至電腦系統，等待機器學習（machine learning）過程透過雲端計算（cloud computing）去完成，訓練後的模型便可以輸出用作預測結果。AI模型建基於數學演算法（algorithm），利用大量輸入數據來訓練，以模擬所作出的決策。

　　AI系統使用輸入數據訓練模型，再使用訓練後的模型來生成輸出。在訓練的過程中，AI模型會重複決策過程，從而實現自動化和理解。例如，輸入動物圖片作為數據，模型會根據形狀、顏色、大小和其他特徵，把每個輸入數據標籤為狗或貓。把初始模型經過訓練後，便成為了訓練後的模型。

　　大數據具備五個特徵，包括：規模、速度、多樣性、真實性和價值。規模是指每日產生的巨量數據；速度是指數據的累積速度；多樣性是指多種類和來源不同的數據，例如圖像、影片、文本、語音和氣象數據等，同時亦需注意數據是否有所偏頗，即是輸入數據能否有效地代表整組數據集。例如，若我們想知道所有學生的成績分布，但卻只在系統輸入女生的分數，而不提供男生的分數，這樣就不能夠反映整體學生的成績分布。

　　真實性是指數據是否真確可信，並使系統中的輸入數據能保持原始狀態，與收集時的完全相同。所謂「無用輸入、無用輸出」，這個概念是指我們把錯誤或不可靠的數據輸入並經過電腦處理後，最終只會生成無用的輸出；價值是指收集的數據是否有用。這些都是我們需要考慮的重要因素，會影響到最終的成果。最後，倫理問題亦是重中之重，使用者需注意數據安全性，避免數據受到損壞或防止未經授權使用，亦要確保數據私隱受到保護，免遭未經授權的不當使用。

　　◆ 中大賽馬會「智」為未來計劃 https://cuhkjc-aiforfuture.hk/

　　由香港賽馬會慈善信託基金捐助，香港中文大學工程學院及教育學院聯合主辦，旨在透過建構可持續的AI教育生態系統將AI帶入主流教育。通過獨有且內容全面的AI課程、創新AI學習套件、建立教師網絡並提供AI教學增值，計劃將為香港的科技教育寫下新一頁。

讀香港文匯報PDF版面

智為未來：大數據輸入系統 訓練模型測結果

智為未來：大數據輸入系統訓練模型測結果