經濟

企業地球村

華企DeepSeek用5%成本 看齊GPT-4o

【明報專訊】杭州對冲基金兼AI公司幻方量化旗下公司DeepSeek(深度求索)上月發布全新AI模型DeepSeek-V3首個版本,引起全球科網界關注,賣點是其使用次級GPU(圖形處理器),表現卻足與全球一線AI語言模型媲美,包括OpenAI的ChatGPT-4o。外媒稱,矽谷形容DeepSeek為「來自東方的神秘力量」。另有經濟學者認為,美國禁制AI(人工智能)晶片流入中國,卻導致DeepSeek-V3誕生,質疑禁令無用。

明報記者 鄭智文

綜合報道:Axios、彭博、中國科技網、36氪、《21世紀經濟報道》、《紐約時報》

DeepSeek-V3於去年12月26日發布,一個月以來引起科網界討論,因其訓練成本較小,但在坊間比較中,DeepSeek-V3部分數據被評為可與GPT-4o或Claude 3.5看齊。DeepSeek亦在官網上稱,以DeepSeek-V3為基礎訓練出來的DeepSeek-R1,在後訓練階段大規模使用強化學習技術,在數學、程式碼、自然語言推理等效能與OpenAI o1正式版「比肩」。

就連幫特朗普籌組新政府班底的矽谷「大佬」Marc Andreessen上周也在X發帖,指DeepSeek R1是他所見其中一項最神奇及令人留下深刻印象的突破,屬開源設計(Open Source),是給世界的一份大禮。

DeepSeek-V3未用最先進晶片

外界為此熱議,另一原因是中國受制於美國的晶片管制,而DeepSeek-V3仍有驚人效能。DeepSeek-V3用來訓練AI的是Nvidia(英偉達)(美:NVDA)為中國特設的H800晶片,即H100產品減速版,其互連頻寬(Interconnection Bandwidth)約為每秒400GB,較H100慢逾一半,到2023年H800被美國禁制出口到中國。

DeepSeek主要用上2048張H800顯示卡組成GPU(圖形處理)叢集,不到兩個月就訓練出有6710億參數的DeepSeek-V3,而Meta(美:META)的Llama,用上1.6萬塊H100顯示卡,耗時54日,訓練參數為4050億。

外界估計Meta投資逾5億美元訓練Llama 3.1模型,DeepSeek宣稱只花了557萬美元完成訓練,成本更為OpenAI旗下GPT-4o的約5%。

「專家架構」運算量大減 性能更佳

科技博客硅星人發文分析,以DeepSeek的GPU配備,節點間通訊較慢,故DeepSeek靠提升效率取勝,當中涉及數項關鍵技術。例如DeepSeek-V3採用MoE(Mixture of Experts,專家混合)架構,按用戶提示內容交由不同「專家」網絡處理。由於每次只需啟動相關的專家網絡,運算量大幅減少,故同等運算量下,訓練模型及性能亦更佳。另DeepSeek-V3用上FP8混合精度,加快運算,減少佔用內部記憶體,但有業界人士指出,FP8可能會影響AI的精確度。

於DeepSeek-V3發布翌日,反對開源AI的OpenAI創辦人Sam Altman在X上發帖,稱當知道一些事情行得通時,相對容易複製,但當不知道是否行得通時,要做具風險及難度的新事物,則極為困難,當研究者做到時,自然獲得大量榮譽。帖中未有指名道姓,外界猜測是否暗指DeepSeek。

業界漸對規模定律存疑

過往科技界對於訓練大型語言模型,都相信規模定律(Scaling Law),即數據、參數、運算資源愈多,模型的能力和效果會愈好。據報OpenAI本來預期在2024年推出的GPT-5,每次為期半年的訓練中,運算成本高達約5億美元,未來訓練成本更有望攀升。不過,業界漸對這個定律有疑問。今次DeepSeek-V3出現,或令業界重新演繹這個定律。

DeepSeek一鳴驚人,還令外界注視美國晶片管制措施是否能打擊中國。拜登臨卸任美國總統時,設下晶片管制三級制,中國及俄羅斯等國屬第三級,被禁取得美國先進晶片,據報是為了阻止中國從黑市買到晶片。

學者質疑美能否阻晶片流入中國

佐治梅森大學經濟學教授Tyler Cowen在彭博專欄發文,表示現在全世界都知道,只需較少資金即可訓練出非常高質的AI系統,類似系統或被引入俄羅斯、伊朗、巴基斯坦等國,由DeepSeek在其他國家啟發的分支或令人擔憂。

Tyler Cowen強調,AI技術對國安至關重要,自己曾支持禁制中國買入晶片,現在卻認為這個做法想過頭。他指出,美國想收緊中國將先進晶片用在AI系統,最終卻令毋須倚賴最先進晶片的AI系統加速發展,令中國創造出DeepSeek。

他又質疑美國能否操控全球市場,阻止晶片流入中國。他形容美國國安的論述令人信服,但實際很難制定政策保障國安,現在應設法令行動切合理論。

[企業地球村]

上 / 下一篇新聞