姚兆明 香港大學計算與數據科學學院碩士課程總監
由於訓練大型語言模型需要大量的訓練資料,為了處理如此大量的數據,我們需要強大的運算能力,例如是用上大量GPU卡。一旦模型訓練成功,系統就必須儲存一個非常龐大的語言模型,這不僅需要大量的記憶體或儲存空間,而且要從這個龐大的模型中檢索資訊並非易事。當系統需要處理大量使用者的大量請求,則需要大量的運算能力來快速回應使用者的查詢。
如果讀者了解以上內容,就會明白為什麼GPU卡會成為中美貿易戰的重要議題,這也是華為等中國公司加緊開發自主研發GPU卡的原因,也促使中國公司努力生產高性能GPU卡。筆者諮詢了系統研究和GPU卡方面的專家同事後,得出以下國產GPU卡和目前主導全球市場的英偉達GPU卡的現況和對比。
華為昇騰NPU與英偉達GPU在幾個關鍵方面存在差異。首先,英偉達目前採用更先進的半導體製程,例如H100是採用台積電的4nm製程,與昇騰910B採用的7+nm製程相比,其密度和峰值計算能力更高。其次,在峰值運算效能方面,英偉達H100 GPU的運算能力約為989 TFLOPS(FP16),大約是華為昇騰910B 300 TFLOPS(FP16)的三倍有餘,凸顯了英偉達在運算能力方面的優勢。至於在程式語言方面,華為使用CANN,英偉達使用CUDA,由華為自主研發的CANN軟件棧強調國產技術自主性,英偉達則擁有成熟且全球認可的CUDA生態系統。
目前,英偉達GPU卡的效能確實比華為的要好;在開發系統方面,英偉達和華為的軟件開發環境也有所不同,例如程式語言分別為CUDA和CANN。不過,以上主要比較的是硬件效能和開發環境。在軟件方面,或許可以透過軟件技術,讓應用程式在較低性能的硬件上運作良好。而且,並非所有應用程式都需要頂級硬件才能運行,增加GPU卡的數量或許也能解決部分問題。筆者相信,憑藉中國(包括香港)的研發實力,我們完全有可能突破運算能力方面的局限,讓我們拭目以待。
評論