由政府資助「InnoHK創新香港研發平台」旗下的香港生成式人工智能研發中心(HKGAI),在基於大型語言模型DeepSeek作參數微調,並持續訓練後,今日(25日)正式公布研發出「HKGAI V1 大模型」。系統支持兩文三語並基於本地知識庫訓練,並可衍生聊天機械人、文章撰寫、錄音轉換文字、法律文書撰寫、作曲、影片生成等多個功能,現已於70多個政府部門應用。科大首席副校長、HKGAI主任郭毅可表示,首要是做到在政府內部廣泛且穩定應用,在有足夠承載力前題下,目標今年內可開放予公眾使用。
創新科技及工業局長孫東出席發布會致辭就指,在前年年初ChatGPT公布引起全球關注,卻不對香港開放,政府因此組織本地專家教授、科研團隊召多次座談會,探討在香港開闢生成式人工智能發展後,決定在InnoHK旗下成立HKGAI,由科大領軍聯同另外4所本地大學參與,並在香港布局算力設施。
孫東表示,研發中心在短短不到一年時間,先於去年上半年開發出第一個生成式人工智能文書輔助應用程式「港文通」,去年中起率先在政府部門開始試用及訓練;其後今年年初DeepSeek推出後,研發團隊迅速將DeepSeek的底座模型架構與HKGAI模型的數據處理功能結合推出「HKGAI V1」。孫東形容,中心歷時一年半,「從無到有,書寫了獅子山下一個美好的創科傳奇」。
生成式人工智能模型會運用大量開放資料、數據,要確保資訊準確屬挑戰。郭毅可回應指,模型建基於統計學,一定會有錯誤出現,為了確保有高的準確率,他們的系統除了基於知識庫及擷取外來網頁資訊,加入了交叉驗證(cross validation)校對環節,加強模式推理能力,例如是在參考首兩個網頁後,再以第三個網頁的資訊作比對。
人工智能發展衍生版權問題,政府亦正擬修訂《版權條例》配合發展。郭毅可表示,各國就人工智能的版權問題有不同處理方向,他認為重要前提是保障數據資料使用合法,而現在HKGAI使用的數據,大量都屬於授權應用。他指,中心非常注意在任何情况下保護知識產權,舉例由人工智能生成的唱歌影片,不會採用任何人的頭像,而是由AI合成產生。關於用於訓練模型時使用數據,郭表示屬「非常有爭議的問題」,相信香港的法律專家們也在不斷探討,他期望達到「既保障不侵權,又保證不妨礙機器學習」的規管框架。