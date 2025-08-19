媒體和業內人士認為，這次事件重創了內地轉用國產AI晶片的努力，也突顯了內地在實現技術自主上面臨的挑戰，特別是在最關鍵的AI大模型訓練過程。

被迫用回Nvidia晶片訓練R2

網上數據顯示，DeepSeek-R1模型當年乃使用了1萬枚H100、1萬枚H800和3萬枚HGX H20，即合共5萬枚Nvidia GPU集群來進行訓練。但據《金融時報》在8月14日引述3名知情人士報道，DeepSeek在今年1月成功推出DeepSeek-R1大模型之後，在內地政府部門的鼓勵下，嘗試轉用華為的「昇騰910B」晶片來訓練其新一代人工智能大模型DeepSeek-R2。可是，在轉用「昇騰910B」晶片來訓練R2的過程中，DeepSeek卻持續遭遇一系列技術問題。

據兩名知情人士透露，儘管華為派出了工程師團隊在現場提供協助，DeepSeek仍然無法在「昇騰910B」平台上進行一次成功的R2訓練。於是，DeepSeek唯有用回Nvidia的晶片來訓練R2，只保留華為的「昇騰910B」晶片將來用於R2的推理工作。即是說，DeepSeek-R2只會在完成研發工作之後，正式推出讓客戶使用時，才使用「昇騰910B」晶片來運作。

現時DeepSeek仍在與華為合作，希望R2的推理工作可以和「昇騰910B」晶片兼容。 而轉用「昇騰910B」訓練失敗、又要用回Nvidia的晶片來訓練，正是DeepSeek-R2多次延遲推出的最主要原因。

推出時間至少押後至9月

據內媒報道，DeepSeek-R2原定在今年5月推出。今個月較早時的傳聞是，DeepSeek-R2將會在8月15日至30日期間推出。但到了8月13日，據報道，接近DeepSeek的人士已向多家內地媒體確認，DeepSeek-R2並沒有在8月內推出的計劃。至今，DeepSeek仍未公布R2的推出日期，團隊仍在對它的效能進行優化云云。

延遲推出R2，或多或少已經令DeepSeek的程式的下載量在近月顯著下跌。根據QuestMobile和《每日經濟新聞》在7月底合作公布的《2025年第二季度AI應用價值榜》，DeepSeek的每月平均下載量已由第一季排名第一的8111.3萬，大跌至第二季的2258.9萬，跌幅高達72.15%，只保住第二位。至於每月活躍用戶數目（MAU），亦由第一季的1.87021億，下跌至1.69703億，按季減少9.26%，雖然仍能保住第一位。

國產AI晶片軟硬件均存在短板

業內人士表示，與Nvidia的AI晶片相比，國產AI晶片在多方面都存在短板，包括：高頻寬記憶體（HBM）較少、記憶體頻寬較低、晶片互連接速度較慢，性能不夠穩定，以及軟件平台生態品質較差等。若單看每枚華為「昇騰910B」的獨立算力，似乎比Nvidia的「閹割版」特供予中國晶片H20有過之而無不及。網上數據顯示，「昇騰910B」的FP16浮點運算性能達256至320 TeraFLOPs，而H20的FP16浮點運算性能則只是148 TeraFLOPs。但「昇騰910B」的高配版也只配備64GB的第二代高頻寬記憶體（HBM2e），記憶體頻寬只是1.2TB/s。低配版更加只有32GB，記憶體頻寬只是800GB/s或400GB/s。而H20卻配備96GB的第三代高頻寬記憶體（HBM3），記憶體頻寬達到4TB/s。所以，H20比「昇騰910B」更加適合用來訓練千億個參數的大模型。而事實上，H20已經是H100的降級版，目的是令內地企業很難用來訓練上萬億個參數的超大型人工智能語言模型（LLM），或者訓練時間非常漫長。據報道，DeepSeek-R1已經有6710億個參數，而DeepSeek-R2的總參數量更可能高達1.2萬億個，比DeepSeek-R1增加大約一倍。這就解釋了「昇騰910B」為何會在訓練DeepSeek-R2時表現差強人意。

另外，AI大模型由原先開發時使用的Nvidia的CUDA平台生態，轉移到華為「昇騰」晶片的MindSpore平台生態，雖然可以使用適配工具來轉換源代碼，但據報效能將會損耗15%至30%。

本地創科公司AppTech創辦人李治緯指出，AI大模型這樣轉換平台除了會出現效能損失之外，其源碼也可能會出現很多bug。他懷疑，DeepSeek-R2在轉用MindSpore平台之後，有可能並未完成除錯（debug）工作。

明報記者 薛偉傑

[薛偉傑 科技觀潮]