「DeepSeek」一人砸全村?(二)

「DeepSeek」一人砸全村?(二)
2home.co 楊惟婷

DeepSeek(深度求索)是一家來自中國的 AI新創公司,先後發布多款「低成本」、「開源式」的大語言模型,而且DeepSeek已經找到繞過美國出口禁令的方法,並利用有限的資源來提高「算力效率」。此讓矽谷精英嚇傻了!
尤其DeepSeek推出的開源 AI大語言模型,將吸引全球的APP開發者向DeepSeek靠攏,並讓「邊緣運算」百家爭鳴,也使AI的應用在成本降低後「普及化」!未來AI產業的發展,將不再被七巨頭們所壟斷!

事實上,卓越的AI大語言模型「LLM」必須由硬體晶片「算力」及軟體「演算法平台」相輔相成,所以AI產業需要像DeepSeek這樣的不斷創新架構的企業來推進,因為優秀的「演算法平台」可以幫助從現有晶片硬體中發揮更強大的「算力」。亦即,提高 AI基礎設施的晶片需求仍然存在,但優秀的「演算法平台」同樣可強化AI大語言模型「LLM」所需求的「算力」,使性價比提高!尤其「低成本架構」也將AI產業的應用「普及化」,闢出一條坦途!

深度求索(DeepSeek) 的大語言模型不僅免費且開源,又繞過了輝達的軟硬體整合技術「統一計算架構」(CUDA)這道護城河,並改用新的「演算法平台(自編PTX)」來高效利用硬體層面加速,以提高模型效果。其「高性價比」將源源不斷吸引APP開發者投入此架構形成一道高牆,愈來愈多的科技巨頭,似乎已經出現「FOMO(害怕錯過)」心理,前撲後繼投入DeepSeek懷抱。

DeepSeek 的成功,標誌著AI產業成長模式的一個新方向,特別是使美國在人工智慧領域的領先地位受到挑戰。
雖然美國企業界和政界對 DeepSeek 的反應相對負面,但這些「酸葡萄」反應,反而顯示出美國對 DeepSeek 成功的擔憂,並可能促使矽谷精英們重新調整對AI產業的投資模式。

從中國的角度來看,DeepSeek 的成功不僅在於其技術創新,還在於其低成本的商業模式。這項成本優勢使得 DeepSeek 能夠在全球市場中佔有一席之地,並可能在生成式人工智慧領域複製中國「獒犬式競爭模式」。

在未來的競爭中,美國對華的「過度管制」,可能促使中國加速「自主創新」,甚至在「軟體算力」上取得突破。反而,「過度保護」可能使美國在市場競爭中失去優勢。 DeepSeek 的出現,不僅使美國對人工智慧的「壟斷性投資」發展策略失效,也讓美國在AI產業的投資模式產生「泡沫化」疑慮?

整體而言,DeepSeek 的崛起不僅是中國人工智慧技術的突破,更是全球AI產業競爭格局的「典範移轉」。
伴隨 DeepSeek 的成功「典範」,中國在人工智慧領域的地位日益重要,未來,人工智慧的發展將可更「普及化」,將有利重塑全球的技術創新。

四、DeepSeek引爆「FOMO(害怕錯過)」情緒

著名風險投資人、Mosaic 瀏覽器共同發明人Marc Andreessen說:「DeepSeek R1 是我見過的最令人驚歎和印象深刻的突破之一,作為開源專案,這是給世界的一份重要禮物。」

微軟 AI 前沿研究實驗室首席研究員 Dimitris Papailiopoulos也說,DeepSeek-R1 最令人驚訝的是其工程簡單性。「DeepSeek追求準確的答案,而不是詳細說明每個邏輯步驟,這顯著減少了計算時間,同時保持了高效率。」

尤其深度求索(DeepSeek) 的大語言模型免費且開源,又繞過了輝達的軟硬體整合技術「統一計算架構」(CUDA)這道護城河,並改用新的「演算法平台」來高效利用硬體層面加速,以提高模型效果。其高性價比將源源不斷吸引APP開發者共同投入此架構,未來將形成另一道「長城」!

■Nature發文:DeepSeek如何創造出AI模型?

科技新創公司 DeepSeek 以其大型語言模型 (LLMs) 卓越的「性價比」,震驚了科技界。著名專業期刊《Nature》特別發文,探討中國在科技與人工智慧的研究。
文章稱,這些模型的性能可與美國科技巨頭OpenAI所開發的主導工具相媲美,但其開發成本和計算能力卻遠低於這些巨頭。

DeepSeek 的領導團隊使用一種獨特的中國創新方法來提高其模型的效率,例如採用「專家混合」架構和創新的多頭潛在注意力技術的變體,強調在限制下的效率。尤其DeepSeek 是在美國政府實施出口管制的背景下開發DeepSeek-R1和 Janus-Pro-7B,這更突顯了其成就。
這些管制自 2022年起阻止中國獲得先進的 AI計算晶片。故DeepSeek 僅使用大約 2000個 Nvidia 製造的 H800晶片來訓練其 DeepSeek-V3 模型,而 Meta 的 Llama 3.1 405B 則依賴於 16000多個更先進的 H100 Nvidia 晶片。
而DeepSeek 的成就為那些有 AI雄心、但缺乏財政資源和硬體的國家提供了藍圖。DeepSeek 的成功表明,即使在資源有限的情況下,也可以透過創新和效率來建立大型 LLM。

文章認為,DeepSeek 的成功並非偶然,它符合中國政府想成為全球AI領域領導者的雄心。中國在 LLM開發領域投入巨額風險投資,並且擁有大量科學、技術、工程或數學領域的博士學位人才,包括 AI領域的人才。

中國政府將發展 AI 產業列為優先事項。早在 2017年,中國政府就宣布其在 2030年前成為全球 AI領域領導者的目標,並要求行業在 2025年前完成重大AI 突破,「使技術和應用達到世界領先水平」。
為了實現這一目標,中國政府大力投資 AI教育和人才培養。
中國教育部已經批准 440 所大學開設人工智慧專業的本科學位,並計畫培養世界近半的頂尖AI 研究人員。

事實上,除了 DeepSeek 之外,還有其他中國公司也在開發先進的 LLM。
例如:
阿里巴巴已發布中國迄今為止最先進的 LLM——Qwen2.5-Max
阿里巴巴聲稱中國性能超越DeepSeek 在2024年12月發布的 DeepSeek V3。
Moonshot AI 和字節跳動也發布了新的推理模型——Kimi 1.5 和 1.5-pro
他們聲稱這些模型在某些基準測試中可以超越 o1。
又如,由百度領導的深度學習技術與應用國家工程實驗室,已經培養了成千上萬的 AI 專家。

■吳恩達:DeepSeek能以「經濟方式」訓練模型,讓人印象深刻!

「AI 教育第一人」、美國電腦科學家吳恩達在世界經濟論壇表示,DeepSeek能夠以非常經濟的方式訓練推理模型非常出色,並且讓人感到印象深刻。
他很欣賞世界各地的許多團隊,包括DeepSeek-R1,為開源權重模型所做的貢獻。

吳恩達為史丹佛大學電腦科學教授、Coursera 共同創辦人、DeepLearning.AI 創辦人,被全球 AI學習者稱為「AI 教育第一人」。他同時也是Open AI創辦人Sam Altman 的導師,在人工智慧領域頗有建樹。

DeepSeek發布了全新的開源推理大模型 DeepSeek-R1,在數學、程式設計和推理等多個任務上達到了與 OpenAI o1 相當的表現水平,同時將應用程式介面(API, Application Programming Interface)向開發者開放,且呼叫成本降低了 90-95%。

當下大模型競爭激烈,基於這些 AI 大模型之上的應用程序API向開發者開放,會更加有價值。因為大家需要這些應用程式API——無論是客戶服務檢查點、還是程式系統等等——它們比 AI模型本身更有價值。只有低成本使用,開發者才能負擔得起使用這些 AI模型的成本。

■不論褒貶與否,美國科技巨頭爭先恐後導入DeepSeek!

DeepSeek的AI大語言模型羽翼已成,全球雲服務及晶片等眾多的AI巨頭也從一開始的不敢相信、質疑到認可之後,似乎已經出現「FOMO(害怕錯過)」心理,紛紛對DeepSeek模型進行支援、接入,前撲後繼投入DeepSeek「長城」之中。

輝達1 /31日率先宣佈,旗下 NIM 已經可以使用 DeepSeek-R1,並稱 R1 是具備最先進推理能力的開放模型,比起直接提供回應,像 R1 這樣的推理模型會對查詢進行多次推理處理,使用連鎖思維、共識和搜尋方法來生成最佳答案。
根據說明,在單個 NVIDIA HGX H200 系統上,完整版 DeepSeek-R1 671B 的處理速度可達每秒 3872 個 Token。

同一天,亞馬遜也向客戶宣佈,目前已可以在 Amazon Bedrock 和 Amazon SageMaker AI 中部署 DeepSeek-R1 模型。

此外,曾經與 OpenAI 一起高調質疑DeepSeek「偷竊」數據的微軟 (MSFT-US) ,甚至在前一天就把 DeepSeek-R1 搶先部署在自家的雲端服務 Azure 上AI Foundry,成為該企業級 AI 服務平台的一部分。

除了科技大廠,AI 新創機構也沒有放過如此好的機會。
Windsurf 編輯器同時整合了 DeepSeek-R1 和 V3 模型,並且第一次在編輯智慧體中實現 R1 的工具調用。

Cerebras不僅實現比 GPU快 57倍的推理速度,而且還報告表示,自己部署的 70B 模型在準確率上要比 GPT-4o 和 o1-mini 更高。

■輝達搶先上線DeepSeek R1

開放模型 DeepSeek-R1 擁有 6710 億個參數,具備先進的推理能力,能在邏輯推理、數學、編程及語言理解等任務中提供高準確性。
有別於 OpenAI 、Anthropic 和微軟 (MSFT-US) 等科技業巨頭對DeepSeek的圍剿 ,輝達選擇走內捲路線,搶先上線備受爭議的開放模型DeepSeek R1。
輝達 (NVDA-US) 官網 1/30 日顯示,推理開放模型DeepSeek R1 現已在 NVIDIA NIM(輝達推理微服務)平台上提供預覽版。

DeepSeek-R1 現已作為 NVIDIA NIM 微服務預覽版提供,支持高達每秒 3872 個標記的推理效率。開發者可以透過即將推出的 API 進行測試和實驗,並能在其加速計算基礎設施上安全地部署。

NVIDIA Blackwell 架構將進一步提升 DeepSeek-R1 的性能,提供高達 20 petaflops 的 FP4 計算性能。開發者可以利用 NVIDIA AI Foundry 和NeMo軟件創建自定義的 DeepSeek-R1 微服務,滿足特定需求。

DeepSeek R1 是具備領先「推理能力」的開放模型,專為需要複雜邏輯推理、數學計算、編碼及語言理解任務設計。該模型採用了一系列高級方法,如思路鏈、共識和搜索等,以確保能夠生成最優質的答案。不同於直接響應查詢的傳統模型,DeepSeek R1 通過多次推理來優化結果,這種測試時間擴展的方法對於實現實時推理和更高質量的響應至關重要。

未來開發人員現可透過 build.nvidia.com 上的 NIM 微服務訪問具 6710億參數的DeepSeek R1 模型,不僅可安全試驗這些功能,也可構建自己的專用代理。
此外,DeepSeek R1 NIM 微服務能夠在單個 NVIDIA HGX H200 系統上每秒處理多達 3,872 個令牌,極大提升了效率和響應速度。

為了簡化部署流程,DeepSeek R1 NIM 微服務兼容行業標準 API,並作為 NVIDIA AI Enterprise 軟件平台的一部分提供給用戶。企業可以通過在其選擇的加速計算基礎設施上運行 NIM 微服務,最大化保障數據隱私和安全性。
同時,利用 NVIDIA AI Foundry 和 NVIDIA NeMo軟件,企業還能定製化開發專門的 AI 代理服務。

■AMD也快速站隊,宣布整合DeepSeek-V3到MI300X GPU

AMD(AMD-US) 在1/24日透過其官方 X 平台宣布,已將全新的 DeepSeek-V3 模型整合至其 Instinct MI300X GPU。並強調為目前最強大的開源大型語言模型 (LLM),甚至超越了 GPT-4o。為目前最強大的開源大型語言模型 (LLM),甚至超越了 GPT-4o。DeepSeek-V3 模型是專為 AI 推論 (inference) 優化的,此舉有望提升 AMD GPU 在 AI 應用方面的效能。

AMD 特別強調與DeepSeek和SGLang團隊的密切合作。SGLang是一個用於支援高效能運算的軟體框架,它的整合不僅加速了技術的實現,也確保了軟硬體之間的協同運作達到最佳狀態。

AMD 表示,這種整合是為了在SGLang上實現峰值性能而設計。更重要的是,AMD 的ROCm平台對 FP8(8 位浮點數) 的廣泛支援,顯著改善了 AI 模型的運行過程,尤其是在推論方面。FP8 降低了數據傳輸和計算的延遲,同時也解決了與更多讀寫格式相關的記憶體瓶頸和高延遲問題。這使得 AMD 的平台能夠在相同的硬體限制下處理更大的模型或批次,從而實現更有效率的訓練和推論過程。

AMD 指出,Instinct MI300X GPU 是 AMD 專為 AI 和高效能運算設計的加速器。透過整合 DeepSeek-V3 模型,這些 GPU 在執行 AI 推論任務時將更具效率。

■DeepSeek七天增加1億用戶破世界紀錄,催生國產AI生態鏈正快速成型!

DeepSeek 在中國海內外實現7天、增加1億使用者的神話外,除震撼美國主導的 AI生態系統,也引爆全球晶片廠商紛紛宣布支援 DeepSeek,尤其是眾多中國國產 AI晶片廠商,集體為 DeepSeek建立堅強後盾。

自2025年1 /20 日DeepSeek發佈 R1模型後,1月DeepSeek用戶(含網頁跟APP) 增長達 1.25億,其中八成以上來自 1月最後一周,也就是 DeepSeek 在沒有任何廣告投放情況下實現 7天完成 1億使用者增加的里程碑。

海外晶片大廠的動作最快,如超微半導體 (AMD-US)1 /25日將 DeepSeek-V3 集成於 Instinct MI300X GPU,幾天後輝達 (NVDA-US) NIM 微服務預覽版也宣布支援DeepSeek-R1,1月底英特爾 (INTC-US) 也宣佈在酷睿 AI PC中可離線使用 DeepSeek,這意味著全球最主要 PC和 AI晶片廠均接入並支援 DeepSeek。

另外,由於DeepSeek 跳出輝達GPU和 CUDA技術框架,也帶給國產晶片出頭的機會。
國產晶片動作最快的是華為,在春節期間宣佈旗下昇騰 910系列晶片全面適配 DeepSeek,甚至還上線基於華為雲、昇騰雲服務的 DeepSeek R1/V3 推理服務。

接著,國產晶片廠商蜂擁而上。已有超過 15家國產晶片廠商宣佈接入DeepSeek,例如沐曦、天數智芯、摩爾線程、海光資訊、壁仞科技、太初元碁、雲天勵飛、燧原科技、百度崑崙芯、靈汐科技、鯤雲科技、龍芯中科、算能科技、清微智慧等。由眾多國產晶片廠商爭先恐後接入DeepSeek 顯示,該 AI工具「開源」的特性,正啟動國產AI及電腦晶片的潛能,也帶動國產 AI晶片產業的發展。

值得特別一提的是,國產晶片龍頭海光DCU完成 DeepSeek V3和 R1模型的適配並正式上線。因為,海光DCU憑藉「類CUDA」架構的強大生態優勢,實現與 DeepSeek 全部大模型的極速適配,這也顯示以華為昇騰和海光 DCU為代表的國產AI晶片龍頭的接入,凸顯國產AI生態正快速成型,逐步形成「國產推理算力系統 + 國產大模型 + 國產應用 + 國產智算中心」的全方位生態。因而,DeepSeek 是一帖「催化劑」,促進著中國諸多產業的 AI普及和應用,不久後料將形成一個正循環的產業鏈。
亦即,國產AI產業抓住 DeepSeek的大商機,將國產AI底層技術、AI算力產業、AI大模型及眾多行業應用初步形成完整的正循環產業鏈,這也有助於中國在全球 AI競爭中佔據主動,以及更重要的戰略地位。

■DeepSeek朋友圈不斷擴大,大陸內部紛紛力挺 DeepSeek生態!

隨著DeepSeek於2024年12月上線並開源DeepSeek V3/R1/Janus Pro,主打低成本、高性能的AI大模型,對全球AI行業帶來新震撼,雖遭到美國官方等許多單位宣布禁用,反觀大陸內部表態力挺。

近期已有阿里雲、百度智慧雲、華為雲、騰訊雲、字節跳動、京東雲、中國聯通雲、火山引擎、天翼雲、360數字安全、雲軸科技ZStack等多平台宣布上線DeepSeek大模型,並推出超低價格方案及各種限時免費服務。例如,
2/3日百度智能雲宣布已上架DeepSeek-R1和DeepSeek-V3模型,推出超低價格方案並限時免費。
2/3日阿里雲也宣布其PAI Model Gallery支持雲上一鍵部署。
此外,無問芯穹、矽基流動等 AI基礎設施廠商,以及青雲科技、PPIO派歐雲、雲軸科技等獨立雲廠商,已宣佈適配及上架模型服務。

其他技術團隊包括中科曙光國家先進計算產業創新中心、海光資訊、摩爾線程、天數智芯、沐曦積體電路、華為等科技企業也紛紛投入各種晶片與大模型服務合作;應用端方面,則有盛天網路、萬興科技、易點天下、當虹科技參與大模型適配與多行業垂類場景數據合作。
凡此種種熱度,更被喻為在大陸激起民族自豪感。

與此同時,連中國國家隊也出手了!
2/5日,就連中國官方也出手,國家超算互聯網平臺也已正式上線 DeepSeek-R1 模型的 1.5B、7B、8B、14B 版本,並將於近期陸續更新 32B、70B 等版本。除 R1 模型外,國家超算互聯網平台還上線了 DeepSeek-V3、DeepSeek-v2.5 系列、DeepSeek-coder 系列、DeepSeek-math 系列(7b)和 DeepSeek-v2 系列(Lite)等模型。
另外,大陸國家超算互聯網平台2/11日更宣佈推出「AI生態夥伴加速計畫」,提供 3個月 DeepSeek API介面免費使用、千萬卡時算力資源池等激勵,入駐即享受豐厚算力補貼,商品推廣時還可額外獲得免費算力支援。
依託超智融合算力,超算互聯網平台已上線 DeepSeek 滿血版的模型鏡像,企業和開發者可敏捷部署並客製化開發。

可以預見的是,隨著基於 DeepSeek 的應用如雨後春筍般爆發,越來越多晶片廠商的入局,已基本實現對 DeepSeek 蒸餾版小模型的相容支援,這意味著只要此前能運行 Llama、Qwen 這類常見模型,如今便可直接無修改地運行 DeepSeek 蒸餾版小模型。

沐曦聯合創始人楊建表示,最大影響是強化學習的蒸餾流程開源,讓大模型在垂直領域的後訓練和推理成本急劇下降,同時在垂直領域的可用性急劇上升,同時催生大模型在各行各業的認知,提升私有化垂直模型部署的願望。

TrendForce 集邦諮詢研究指出,DeepSeek 模型雖然降低AI訓練成本,但 AI模型的低成本化有望擴大應用場景,進而增加全球數據中心建置數量。

■大陸聯想攜手DeepSeek,將帶動AI個人電腦產業鏈

全球個人電腦(PC)龍頭大廠聯想近日宣佈與大陸國產AI大模型廠商DeepSeek合作,發表基於DeepSeek大模型的國產一體機解決方案。
此外,聯想的人工智慧體「小天」也已接入DeepSeek,並且正與DeepSeek探討更多深入合作可能。

據《芯智訊》報導,聯想與DeepSeek深度合作,可望帶動聯想AI PC銷量大爆發。

報導指出,台灣的PC代工廠當中,仁寶與聯想關係最緊密,目前仁寶在AI PC市場已處於領先地位。仁寶董事長陳瑞聰之前曾表示,仁寶在AI PC已經成為業界第一。目前仁寶與多家晶片廠商合作,由仁寶設計的AI PC市場佔有率約60%到70%,由於近期開源模型DeepSeek的技術突破,有機會進一步降低邊緣端採用AI的成本,將推動AI PC的滲透率加速提升,有利仁寶PC出貨升溫。

而承接部分聯想筆電代工訂單的緯創也被看好,緯創總經理林建勳指出,隨著Windows作業軟體升級,加上疫情前換機的消費者陸續換機,今年下半年有機會成長,而全年AI PC滲透率將達雙位數。

■庫克:DeepSeek使得「邊緣推理」更可行!

DeepSeek以低成本實現了技術突破,對於蘋果公司來說可能是個好消息,因為其模型的推理記憶體需求將可大幅降低,這使得「邊緣推理」更可行。
因為,蘋果的晶片非常適合邊緣推理,由於蘋果的矽晶片使用統一記憶體,CPU、GPU和 NPU可以訪問共享的記憶體池。
像DeepSeek的 R1這樣的推理模型,將可以在智慧型手機上運行,執行博士級任務,耗電量僅為 20瓦,相當於人腦的耗電量。

蘋果執行長庫克在1/30 日財報電話會議上被問到如何看待DeepSeek時,庫克認為「能提高效率的創新」是一件好事。

■女股神伍德:AI領域將加速「成本崩潰」,這是一件好事!

方舟投資 CEO「木頭姐」伍德(Cathie Wood)談DeepSeek的最重要意義,加速了成本崩潰,這是一件好事!
伍德認為,DeepSeek 的出現,不僅加速AI發展,還可能重新定義市場競爭格局,尤其是在推理晶片市場的競爭上,且有助於科技公司未來削減成本和改善平台。

她進一步指出,「DeepSeek 告訴我們的答案是(未來 5年在 AI領域成功)花費將比想像少,你並不需要耗費那麼多現金。」

伍德強調, DeepSeek 加劇了人工智慧「成本」的競爭。她認為, DeepSeek 這樣的企業正在改變 AI產業鏈的成本結構,才是真正值得關注的焦點。
她也認為大型科技公司可從成本下降中受益,並可能使用DeepSeek的一些技術和演算法來改進自家平台。

■OpenAI執行長奧特曼:承認站在歷史錯誤一邊!

ChatGPT 母公司 OpenAI 在2/1 日推出全新推理模型 o3-mini,並在 ChatGPT 向所有用戶免費提供推理模型,雖號稱更便宜,但 API定價仍高於DeepSeek-R1。

不過 OpenAI 執行長奧特曼坦承錯誤,要學習DeepSeek將推理模型的思考過程公開,OpenAI 的閉源策略令他們站到歷史錯誤的一邊,將重新思考 OpenAI 的開源策略,並承認自身領先優勢已不如之前。
奧特曼還說 OpenAI 將效仿DeepSeek的做法,「我們很快就會展示一個更有用、更詳細的版本。感謝 R1 讓我們有所更新」。

截止目前,上線 18天的DeepSeek的每日活躍用戶數已達 1500萬,ChatGPT 突破 1500萬則花了 244天,DeepSeek增速是 ChatGPT 的 13倍。
此外,目前DeepSeek名列蘋果應用商店 157 個國家的第一名。

■ChatGPT跟進提供「免費搜尋」,此將衝擊谷歌「搜尋廣告」

由OpenAI開發的AI聊天機器人程式ChatGPT,2/6日宣布,無需註冊就能在chatgpt.com上免費使用其「搜尋」功能,外媒認為將威脅搜尋引擎Google霸主地位,因為利用ChatGPT搜尋資料時,沒有廣告干擾,且能給予條列式的重點摘要,提供不受干擾的使用體驗。

事實上,Google以關鍵字搜尋,使用者需條列式逐頁尋找,但ChatGPT就像跟人聊天,直接給懶人包答案。例如,將Google比喻為旅客服務中心的地圖資訊,ChatGPT則像旅客服務中心的服務人員可進行問答。
至於對Google的衝擊,短期內因ChatGPT準確度未達90%,需要自行確認答案,直接有感的就是少了彈跳式廣告。

面對ChatGPT、DeepSeek夾擊,Google沒有坐以待斃,2024年第4季受雲端銷售不如預期影響,營收成長放緩,但仍上調資本支出,相比去年全年支出525.4億美元,2025年暴增到750億美元。
市場指出,Google上調支出,除在AI模型競爭紅海中防守,同時也是進攻的布局,在4大CSP企業鉅額資本支出下,將加速AI產業全方位的發展。

■哈佛大學教授艾利森:為何美國無法留住中國大陸科技人才?

政治學家、前國防計畫助理部長、哈佛大學教授艾利森(Graham Allison)感嘆地說,類似錢學森與潘梓正的案例一再上演。

艾利森認為,為何潘梓正(Zizheng Pan)選擇深度求索,成為深度求索的第4名員工,而非美國?
潘梓正DeepSeek-R1模型的關鍵開發者之一,他曾於2023年夏天時前往輝達實習,當時 輝達本有機會提供他正式職位,但他最終放棄了美國的機會,卻選擇了一家不被看好的北京AI新創公司。
艾利森認為,答案很簡單,美國科技公司未能給予他發展的機會。

艾利森也提到,中國大陸的工程師總數是美國的9倍,且STEM(科學、技術、工程、數學)畢業生數量更是美國的15倍。這意味著,像潘梓正這樣的「超級人才」,未來可能會越來越趨向於選擇回到中國大陸,而非留在美國。

艾利森感嘆,這也不是美國第一次失去關鍵科技人才。1955年時,中國籍、接受美國教育的航太工程師錢學森,因政治因素被迫離開美國,返回中國。
錢學森在1935至1955年間,與來自匈牙利的航太科學家 西奧多‧馮‧卡門(Theodore von Kármán) 共同創建了噴射推進實驗室(JPL),為美國的飛彈與太空技術奠定基礎。他也是波音X-20「動力滑翔機」(Dyna-Soar)計畫的主要設計者,後來成為美國太空梭(Space Shuttle)的前身。

■紐約大學教授馬庫斯:AI霸權之爭已結束,各國選邊站!

紐約大學教授馬庫斯 (Gary Marcus) 預判:全球AI爭霸賽已經結束,中美戰成平手,「美國沒贏,中國也沒贏。」兩極世界逐漸成型,各國選邊站!

DeepSeek-R1 模型最重要的突破並非實現了與 OpenAI 的 o1 類似的能力,而是採用了不同的演算法策略。此前,幾乎所有的大模型都遵循著 ChatGPT 定下的模式,也就是先讓模型進行自我強化學習,再以人工參與的監督微調來進行改善。

然而,DeepSeek透過改進強化學習演算法,實現了僅用強化學習就能實現接近於 o1 的推理能力,其模型甚至自己展現出反思能力,令研發人員直呼意外,而正是上述演算法層面的硬派創新,才讓 DeepSeek-R1 大幅節省算力成本,其 API 呼叫成本相比 OpenAI o1 降低了 90% 到 95%。

紐約大學教授馬庫斯認為,中國最近的進展,對 OpenAI 而言無疑是個重大打擊。2 年前的巔峰時期推出 ChatGPT,並與微軟 (MSFT-US) 達成重要策略協議。當時沒有其他公司的模型能夠達到 GPT-4 的水平;媒體對 OpenAI 的關注度空前,用戶成長勢如破竹。

但如今,OpenAI 已經大不如前。客戶開始尋找替代方案;OpenAI 與微軟的關係降溫;奧特曼的公信力持續下降,OpenAI 老將紛紛離職。而且 GPT-5 遲遲未能面世,每個新模型都能被競爭對手迅速跟進,OpenAI 的壁壘正在消失。

馬庫斯斷言:
OpenAI 的結局就是 AI 領域的 WeWork:一度備受追捧,但最後卻崩塌。
而輝達 (NVDA-US) 的惡夢或許也會很快到來。
連川普公開稱讚的 5000 億美元「星際之門計畫」如今看起來都像個笑話。

馬庫斯認為,率先開發出 GPT-5 的公司也只能在文字生成上略勝一籌。從長遠來看,誰先達成這個目標並不重要。就像第一個實現 GPT-4 級 AI 的並沒有對生成式 AI 大局造成根本性改變。現在的情況證實了這一點:領先優勢稍縱即逝。

《金融時報》分析指出:「中國在效率提升方面的成就絕非偶然,這是對美國及其盟友不斷加碼出口限制的直接回應。透過限制中國獲取先進 AI 晶片,美國反而意外促進了中國的創新。」

五、「DeepSeek」是「華為2.0」的翻版?

在中美AI競賽方面,中國受限於美國科技出口管制,中國僅能使用低端GPU,如H800,因此被迫透過「演算法」最佳化、「資料品質」提煉等創新方式彌補硬體不足缺陷,這種「資源約束倒逼創新」的路徑不僅培養出高效研發團隊,更形成「技術透明化—全球協作—生態影響力」的正向循環力量。

相較之下,美國過度依賴高階GPU,如 H100;天價訓練預算的燒錢美學;反而DeepSeek以600萬美元就達到相似效果,就直接衝擊「資本密集型路線」的可持續性。

DeepSeek的出現可謂「石破天驚」,充滿了各種不可能、不合理。它講述了一個如何在層層封鎖、勁敵環伺背景下鐵樹生花的故事,讓美國精心設置的 AI 技術小院高牆出現坍塌風險。

更深遠的風險在於,若中國取得主導「開源生態主導權」,美國將失去技術標準話語權,同時面臨自由主義的「價值衝突」:亦即未來將面臨中國模型需遵守內容審查規則。此暴露出閉源模式的脆弱性。

短期來看,或許美國在通用大模型如 GPT-4仍具優勢,但中國透過垂直領域創新,如數學推理、多模態優化持續縮小差距;長期而言,開源模型應將超越閉源,企業競爭焦點將轉向應用層體驗、而非模型訓練,故勝負將取決於誰能高效整合開源生態與市場需求。

亦即,若美國繼續採取「阻止中國技術發展」的策略,將無法阻擋其透過「自主創新」突破瓶頸;美國唯有正視開源趨勢、重構創新路徑,才能在「生態主導權」爭奪中保持競爭力。

■《經濟學人》:中國AI崛起,川普面臨兩難選擇!

若從微觀而論,生成式AI技術將成為未來10 年生產力成長的強勁引擎,推動經濟前進;宏觀而論,它甚至可能引領人類開啟一場工業革命等級的偉大變革。有助川普兌現「美國再度偉大」的承諾。

中國的AI企業正在飛速追趕,DeepSeek的「推理」模型即表現斐然成果,雖然在LLM模型 並非最頂尖的,但製造成本卻更低,已然對美國的領先地位構成威脅。另電商巨頭阿里巴巴旗下的QwQ於2024年11月推出,僅比美國頂級模型晚了不到 3個月。剎那間,自 ChatGPT 聲名鵲起以來,美國在 AI 領域對中國的領先優勢,竟縮小至歷史最低點。

美國曾千方百計試圖拖慢中國腳步,但如今,中國近期取得的突破性進展,可能顛覆整個產業格局,也讓川普尷尬不已。

尤其DeepSeek的模型採用開源模式,且隨著模型設計不斷演進,低成本訓練模式必定會改變產業生態,可能迎來「典範轉移」。若這趨勢延續下去,科技業的經濟格局將會逆轉。
以網路搜尋和社群網路領域為例,想要複製 Google這樣的巨頭,需要龐大的固定投資成本,還要有承受龐大虧損的能力,但每次搜尋的成本卻微乎其微。這種特性,加上許多網路技術天然的網路效應,使得這些市場呈現出「贏家通吃」的局面。

倘若能以相對低廉的成本訓練出足夠出色的 AI 模型,模型數量必將激增,尤其是許多國家都迫切渴望擁有自主的 AI 模型。而且,每次查詢的較高成本或許會催生更多為特定目的量身定製的模型,這些模型能夠以最少的查詢次數,產出高效且專業的答案。

中國在 AI 領域突破的「不對稱競爭」,是針對缺乏頂級晶片這個障礙展開創新,無論是透過提升效率,還是以數量優勢彌補高品質硬體的不足。中國國產晶片、包括華為設計的晶片,正不斷邁向更高品質。
若中國持續保持在 AI 領先領域的競爭力,它極有可能率先實現向超級智慧的跨越。倘若真的如此,中國獲得的可能遠不止於軍事優勢。在超級智慧的情況下,贏家通吃的態勢可能會突然再次顯現,也可能讓中國獲得巨大的政治影響力,如同 TikTok 帶來的輿論影響一樣令人驚嚇。

■德國《經濟周刊》:DeepSeek現象顯示中國人的成就大多來自美國的制裁!

誠如德國《經濟周刊》分析「DeepSeek現象」時指出,「中國大陸這家初創企業的成就證明了一點:資源稀缺能夠激發創造力。而且,小團隊往往更加靈活高效,因為他們不得不專注於最重要的事項。技術資源有限則迫使他們尋找務實的、而非顯而易見的方案。此外,資金有限也意味著圍繞金錢分配的鬥爭會減少。」

諷刺的說,DeepSeek的現象表明,「太多金錢會導致懶惰、失去創新能力。」
例如,川普在就職典禮次日就高調宣佈耗資5000億美元的「星際之門」AI基礎設施合資公司項目,這只會讓美國人變得更懶惰,因為AI從業者會挖空心思去搞到這筆錢,而不是把精力更多花費在改進產品上。

另外,「美國的制裁也對中國起到很強的激勵作用。中國人會覺得,現在必須要拿出實力讓人看看。這種激勵效應絕不容小覷,處於逆境之中的人願意付出更多的努力,工作時間更長、更賣力。」
該項評論指出,「DeepSeek的程序員們沒有頂級的H100晶片,只能使用減配版的H800晶片,但他們用創造力彌補了這一劣勢。H800晶片上總共有132個流處理器核心,工程師們對其中20個進行重新配置,使它們專門管理跨晶片通信。」

這篇文章強調,「這意味著什麼?科技制裁是一條錯誤的道路。歐美必須和中國展開一場(公平的)科技競賽。而不是縱容那些財大氣粗的企業壟斷產業發展。遺憾的是,我們是依靠中國的努力來得出這個結論。」

■DeepSeek竄紅,將引爆AI高階晶片「殺毛利」?

大陸AI新創企業DeepSeek(深度求索)發佈的V3模型,訓練成本僅600萬美元,成本降低10倍;R1推理模型資源運用效率極高,技驚四座,獲得美國AI界青睞,更撼動全球AI產業鏈。

最令人驚嘆的突破之一,DeepSeek(深度求索)發佈的模型是開源的,是對全世界的大禮,這玩法已經造成矽谷的焦慮、崩潰了!
因為DeepSeek(深度求索)的創新架構,極度節省算力成本,使高階晶片使用量不需要那麼多、而現有貴森森資本投入的AI大型模型獲利回收也要重估了!

川普趕快用行政命令禁止殺手級的DeepSeek,救救G7軍團編組的AI大型模型企業,尤其AI企業競爭開捲,恐怕AI大型模型獲利能力都要重估了!

■中美終須一戰,戰場在AI產業!

中美正處於一場科技競爭之中,而AI產業無疑是這場競賽的核心領域。
其中,美國利用其資本市場的雄厚資金,正在構築AI對戰的資格門檻,力求在AI基礎設施領域占據主導地位。例如美國的「星際之門」(Stargate)計畫則是川普政府所推動的宏大戰略,總投資額預計5000億美元,旨在打造全球最強的AI基礎設施,以維持美國的科技領導地位。

但是,中國DeepSeek(深度求索)架構出「低成本」、「開源式」的大語言模型,而且DeepSeek已經用「開源、免費」模式,迅速問鼎全球市場龍頭寶座!

此種以「軟體創新」突破「硬體限制」方式,可能迎來AI產業的「典範轉移」,也粉碎美國利用其資本市場的雄厚資金,提高AI對戰資格門檻的「壟斷性」發展策略失效!

如今,《深度求索》的突出表現,尤其是在數學推理與代碼生成方面展現了強大優勢。這讓美國科技界感受到前所未有的競爭壓力,若未能保持領先,美國AI技術的全球壟斷地位恐將受到挑戰。

此外,對於全球經濟而言,AI技術的發展將成為未來全球經濟成長的重要驅動力。根據麥肯錫(McKinsey)公司的研究報告,AI技術的應用將為全球經濟帶來高達13兆美元的潛在成長,而在這場競爭中,中美的技術突破,都將對未來全球經濟格局產生深遠影響,這可能成為未來兩國在AI標準設定上的博弈焦點。

總體而言,中美兩國在AI基礎設施建設上的競爭,無論是規模、還是技術層面,都將成為未來全球科技發展的重要驅動力。而這場競爭的結果,不僅將決定兩國在全球科技領域的領先地位,也將對全球經濟、政治與安全形勢產生深遠影響。

■DeepSeek的創新架構,將改變 AI產業遊戲規則!

DeepSeek 推出的 R1與 V3大型語言模型 (LLMs) ,不僅開源、展現卓越性能,並有多項創新讓其表現突出,更在成本上具備顯著優勢,API價格比 ChatGPT o1低達 96%,顛覆 AI產業過往對高效能模型必須依賴巨額資金與算力才能堆砌的認知。

儘管 H800 晶片的效能低於 H100,但DeepSeek在設計上充分優化了其架構,以克服記憶體和頻寬的限制,從而實現了高效的運算。隨著 DeepSeek開源 LLM的崛起正在改變 AI生態系,使競爭格局從技術領先轉向成本與應用性競爭。

為何DeepSeeK的模型可以做到這麼低的成本,美國大廠卻只能望其項背?

1、強化學習 (Reinforcement Learning),運用「鏈式思考 (Chain of Thought)」技術,使模型能夠自我調適與推理,減少記憶與計算資源需求;
2、DeepSeek採用了獨特的DeepSeek MoE(混合專家)和DeepSeek MLA(多頭潛在注意力)創新架構,這些創新使得模型在訓練和推理時更加高效,降低了計算資源的需求;
3、DeepSeek的 R1 模型放棄了傳統的 RLHF(人類回饋)部分,專注於純強化學習,這種方法減少了對昂貴人力資源的依賴;
4、稀疏激活 (Sparse Activation),僅啟用部分模型參數 (6710億個參數中僅370 億個參數活躍),降低計算負擔;
5、8位元精度 (8-bit Precision),採用 FP8混合精度技術,有效降低 GPU記憶體使用與計算成本。DeepSeek利用 FP8(8 位元浮點)資料格式進行訓練,減少了計算精度的同時提高了速度,從而顯著降低了訓練成本;
6、多Token預測 (Multi-Token Prediction),可一次預測多個詞元,加速訓練與推理過程;
7、資源最佳化
DeepSeek在模型訓練中透過聯合壓縮快取數據,減少了記憶體使用,進一步提高了推理效率。

值得關注的是,DeepSeek透過創新架構、資源優化和靈活的訓練策略,成功實現了低成本的目標,從而將對 AI 產業產生深遠影響。
因此,DeepSeek 的成功已促使產業重新審視 AI發展模式,可能對半導體與數據中心市場帶來長期影響。未來是否將改變 AI發展規則、AI產業能否擺脫高昂算力依賴,走向更可持續發展的模式等相關問題,將成為未來市場觀察的焦點。

■「軟體創新」正在突破「硬體限制」,可能迎來AI產業的「典範轉移」!

2022年 10月,為阻止中國成為人工智慧與運算領域的超級大國,美國對中國實施了廣泛的晶片出口限制:即「晶片戰爭」。這「晶片戰爭」的初衷,是想透過掐住中國取得頂尖硬體的管道,來限制中國在 AI領域的發展。

震撼全球AI界的DeepSeek-V3模型,耗時僅兩個月、訓練成本僅使用2048張 H800顯示卡及557.6萬美元,就足以與 ChatGPT 一較高下。而中國這項技術的大躍進,正是川普第一任期對中國進行「晶片封鎖」下的天蠶變。這也是繼電動車與跨境電商之後,中國企業在 AI領域再度上演了「高性價比」的好戲。
尤其,考慮中國企業所面臨的 AI 硬體資源的限制,這項成就更值得關注。

當然,如果未來 OpenAI、Meta 等公司可能利用更龐大的算力集群訓練出性能更為卓越的模型,行業可能會再次掀起大軍團集結的對決。

DeepSeek-V3 的成功,可能預示著另一條路線的轉折:「軟體創新」正在突破硬體限制。這反倒讓美國限制中國的戰略變得很諷刺。如果軟體技術越來越強,那用什麼硬體可能都不重要了。

對於人工智慧產業而言,DeepSeek-V3 預示著大型語言模型開發方式,這可能迎來「典範轉移」。透過巧妙的創新架構設計和高效的訓練方法,前沿的AI能力或許可以在不依賴龐大運算資源的情況下實現。
隨著 DeepSeek-V3 的出現,市場變得更加多元化,為開發者、內容創作者甚至小型新創公司提供了更多選擇。

■Google前CEO施密特:西方AI競賽恐慘輸大陸!

Google前執行長施密特(Eric Schmidt)呼籲西方國家應積極投入開源AI模型的開發,否則將在這場AI競賽中輸給中國大陸。

施密特表示,目前除了Meta的Llama外,美國許多頂尖的AI大型語言模型(LLM)都是封閉的,例如 Google的 Gemini、Anthropic的Claude和OpenAI的GPT-4。
施密特示警:「若我們不採取行動,中國勢必將成為開源領域的領導者,而其他國家則為封閉模型的使用者。」他強調,倘若西方國家不投資開源技術,將影響自身的科學研究進度,因為很多大學難以負擔價格高昂的封閉模型。

■只有「開源、免費」,能夠迅速登頂全球市場龍頭寶座!

DeepSeek爭論背後,其實是隱喻「開源生態」與「閉源生態」的話語權之爭。
由於OpenAI採取「收費」模式,導致不充值的人,就不能用了。
這也讓OpenAI對全球使用者的滲透率,一直提不上去。
而且,它是閉源的。別的公司想利用OpenAI的基礎設施來開發APP,也用不上。

反之,DeepSeek直接開源、免費,短短一個星期,DeepSeek就迅速席捲全球了,在150個國家皆登上榜首。
因為像印度、非洲、拉丁美洲,東南亞以及歐盟等地區,都沒有能力研發頂尖的AI大模型。那他們怎麼辦呢?怎麼趕上AI時代呢?就一個辦法:全部投入DeepSeek的懷抱,直接抄DeepSeek的原始碼,再結合本地資料,做好深度定製。
例如,印度資訊部部長明確要求,十個月內,在印度大規模部署DeepSeek大模型,助推印度AI產業的發展。
歐盟、日韓、東盟以及美國微軟、亞馬遜、輝達等頂尖科技公司,也全部接入DeepSeek了。

如果說,OpenAI是美國的,那麼,DeepSeek就是全人類的。
但天下沒有免費的午餐,接受了DeepSeek的開放原始碼,在AI技術上就得依賴於中國的輸出了。DeepSeek原始碼不更新,其他公司的AI技術就都停滯不前了。因為DeepSeek是技術源頭。

DeepSeek開源後,就跟Android一樣。因為它是免費的,當其他公司都習慣了DeepSeek,也耗費巨大人力、物力,做好了本地化改造,而技術升級呢?就都掌握在中國了!
美國也好,歐盟也罷,再加上印度,巴西,阿根廷等公司,只要依賴上DeepSeek了,就沒法擺脫了。就依賴上DeepSeek,沒法擺脫了!

總之,這場爭論背後是隱喻「開源生態」與「閉源生態」的話語權之爭,也可能代表 AI進化路線的終極對決。而開源,才能通吃全世界,殺死所有的潛在對手。實際上,免費的,才是最貴的!

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。

留言列表(4条)

This site is protected by wp-copyrightpro.com