「DeepSeek」一人砸全村?(一)
2home.co 楊惟婷
2025年1/27日,中國企業「深度求索(DeepSeek)」以一人之力撼動華爾街!
美國科技股恐慌蔓延,VIX指數飆升超20%,輝達 (NVDA-US)下殺超16.86%多,市值血崩蒸發5890億美元,創下華爾街股票單日市值跌幅最大。
台積電ADR也瀉超 13%。費半指數慘崩逾 9%,創下2020年3月以來最差單日表現。iShares半導體ETF也跌落逾7%。
DeepSeek(深度求索)是一家來自中國的 AI新創公司,先後發布DeepSeek- V3和DeepSeek- R1兩款大語言模型,受到市場矚目。
由於DeepSeek訓練其DeepSeek- V3模型的成本號稱560萬美元,僅為OpenAI最新大模型的30分之一,性能卻與 OpenAI相當,此讓矽谷精英嚇傻了!
DeepSeek近日又乘勝追擊,再發布「開源式」多模態AI模型Janus-Pro,其中 Janus-Pro-7B 在GenEval和DPG-Bench 基準測試中再度打敗OpenAI的DALL-E 3 和 Stable Diffusion,且性能可與 OpenAI和 Meta (META-US) 等類似產品競爭,而成本僅為其一小部分。
隨著DeepSeek橫空出世,且DeepSeek開發的大型模型應用程式在中國和美國的蘋果App Store免費下載排行榜上均名列第一。尤其在美國的排行榜上,DeepSeek甚至超越ChatGPT,此將挑戰美國AI領域霸主OpenAI的主導地位。
以DeepSeek的進展來看,中國AI新創公司似乎已經找到繞過美國出口禁令的方法,並專注利用有限的資源來提高「算力效率」。尤其DeepSeek推出的一系列開源 AI大語言模型,也將吸引全球的APP開發者向DeepSeek靠攏,並讓「邊緣運算」百家爭鳴,使AI的應用,且在成本降低後「普及化」!未來AI產業的發展,將不再被七巨頭們所壟斷!
事實上,卓越的AI大語言模型「LLM」必須藉由硬體晶片「算力」及軟體「演算法平台」相輔相成,所以AI產業需要像DeepSeek這樣的不斷創新架構的企業來推進,因為優秀的「演算法平台」可以幫助從現有晶片硬體中發揮更強大的「算力」。亦即,提高 AI基礎設施的晶片需求仍然存在,但優秀的「演算法平台」同樣可強化AI大語言模型「LLM」所需求的「算力」,使性價比提高!尤其「低成本架構」也將AI產業的應用「普及化」,闢出一條坦途!
深度求索(DeepSeek) 的大語言模型不僅免費且開源,又繞過了輝達的軟硬體整合技術「統一計算架構」(CUDA)這道護城河,並改用新的「演算法平台(自編PTX)」來高效利用硬體層面加速,以提高模型效果。其「高性價比」將源源不斷吸引APP開發者投入此架構形成一道高牆,愈來愈多的科技巨頭,似乎已經出現「FOMO(害怕錯過)」心理,前撲後繼投入DeepSeek懷抱。
當然,DeepSeek最新的 AI模型運用不太先進的晶片,卻創造出更高的成本效益,此關鍵改變,將打破「算力」只依賴先進晶片的「華爾街故事」迷思?
「我們不是故意要成為一條鯰魚,只是,不小心成了一條鯰魚⋯⋯。」
這是中國AI新創公司深度求索(DeepSeek)創辦人梁文鋒,在2024年中接受中國媒體採訪時的一段談話。
一、中國「DeepSeek」血洗華爾街的「晶片故事」?
中美兩國打了近8年的科技戰,「華為」不死、且更茁壯!
因為中美兩國科技大戰,反而激勵了中國「科技自主」的決心……
■「DeepSeek」梁文鋒是何其人也?
在全球AI產業,梁文鋒已被譽為中國的「山姆‧奧爾特曼」(OpenAI 共同創始人) 或「吉姆‧西蒙斯」(量化交易之父,年化報酬率 66%投資大師)。
梁文鋒以其卓越的技術能力,正在深刻改變科技及投資界的格局。
由梁文鋒所創立的DeepSeek,其人工智慧模型不僅在性能上與 OpenAI等巨頭相抗衡,且更以低成本的創新方式,正顛覆全球AI產業的「晶片故事」。
梁文鋒在1985年出生於廣東湛江吳川巿的一個小村落——米歷嶺村。
2025年剛滿 40歲,自幼便展現出卓越的數學才能。
2002年,梁文鋒以吳川一中「高考狀元」的成績,考上浙江大學,並在2006年及2010年,分別取得電子資訊工程和計算機科學的學士和碩士學位。
在浙江大學求學期間,他開始編寫AI「演算法」選股。在美國次貸風暴席捲全球的2008年,還在攻讀碩士的梁文鋒,就投入探索「全自動量化交易」的可能性,並於日後成立對沖基金「幻方量化」。
2013年,他成立以德國數學家卡爾‧雅可比命名的投資公司,隨後於 2015年與兩位同學共同創辦「幻方量化」(Huanfang Quantitative),迅速成為中國最大的量化基金之一。在5年中,「幻方量化」旗下至少五檔基金的平均超額報酬率超過了20%。
從幻方量化成立的第1年起,梁文鋒就意識到迫切需要更多的算力,投入2億元自主研發深度學習的訓練平台「螢火一號」。據稱,平台搭載了1100塊的GPU顯卡。同時,梁文鋒開始大量囤積來自輝達的顯卡。在梁文峰參與的一篇技術論文裡寫道,幻方於2021年耗資10億元推出的改良版「螢火二號」,部署了多達1萬張的輝達A100顯卡。據中國業內人士估算,幻方的螢火超算平台,算力至少是同業平均的10倍以上。
儘管在面對中國金融監管機構對量化交易的嚴厲打擊時,梁文鋒2021年因「幻方量化」業績不佳向投資人致歉,承認誤判市場走向,但梁文鋒並未退縮。
相反,梁文鋒仍堅持推動技術創新,推動DeepSeek在 AI領域的進一步發展。DeepSeek的AI發展策略與其「量化交易模式」相似,強調用更少的資源、實現更大的目標。梁文鋒的團隊善於從有限的資源中、提煉有效數據,這種方法與量化交易的核心理念高度契合。
在技術基礎設施方面,梁文鋒的團隊在 2019年開始使用英偉達的 GPU來建構運算系統。到 2022年末,當 OpenAI 發布 ChatGPT時,中國僅有少數幾家公司擁有超過一萬塊英偉達高階晶片,而幻方量化就是其中之一。這使得DeepSeek在 AI 模型的開發上具備了強大的運算能力。
2023年5月,38歲的梁文鋒宣布進軍AGI;2024年底發表的DeepSeek-V3,該模型的效能不僅足以對標OpenAI最先進模型GPT-4o,訓練成本更僅約557.6萬美元,用了僅約20分之1的算力資源,就達到了相同的效能。2025年1月,DeepSeek-R1模型的發布,更宛如在AI界投下一枚深水炸彈。
最重要的是,梁文鋒將程式碼「開源」,旨在打破大型科技公司的壟斷。
他認為,「開源」不僅是商業反壟斷行為,更是科技文化普及化的體現。
透過「開源」,DeepSeek希望能贏得更多技術人員的尊重與支持,有容乃大。
隨著DeepSeek的迅速崛起,梁文鋒和他的團隊面臨前所未有的挑戰與機會。
在用戶需求激增的情況下,DeepSeek的服務曾經歷崩潰,但梁文鋒始終保持低調,迅速投入下一代模型的開發。他的目標是繼續拓展AI技術的邊界,為全球投資界帶來更多創新。
■中國小鴨「DeepSeek」竟長大成了「華爾街黑天鵝」!
DeepSeek是由量化基金「幻方量化」負責人梁文峰於2023年7月創立,公司全名為「杭州深度求索人工智慧基礎技術研究有限公司」,並成為2025年攪動華爾街的首隻黑天鵝。
DeepSeek的AI模型R1自推出以來,被認為能與目前 OpenAI和 Meta的最新產品競爭,也被知名投資人 Marc Andreessen稱為「最令人驚嘆和印象深刻的突破之一」,並將這個突破譽為「AI領域的Sputnik (史普尼克)時刻」。
梁文峰曾對夥伴說道:「我想建立萬卡集群訓練大模型,這將改變遊戲規則。」不過,很多人都沒有太把他當回事!
一般人都認為,只有字節跳動或阿里巴巴這樣的大咖,才有可能在中國實現這個目標。2023年,梁文峰註冊人民幣 1,000 萬元創立DeepSeek,宣布他計劃開發AI大語言模型。
為此,他把其量化基金中最優秀的人才帶到DeepSeek,建立了一支出色AI基礎設施專業團隊。因為他們已經歷過實戰,真正了解晶片的工作原理,因而能率先找到創新方法,最大限度發揮有限數量晶片的運算能力。目前,DeepSeek應用程式(App)位居蘋果應用商店排行榜首位,並採取開源模式。
■DeepSeek大語言模型以「創新」架構,「低成本」創造「高算力」
近期,量化基金「幻方量化」的子公司深度求索(DeepSeek)發表DeepSeek-V3,並同步「開源」,在 AI圈引發熱議。
DeepSeek-V3不僅是開源模型,更在效能上與全球頂尖閉源模型GPT-4o 和 Claude-3.5-Sonnet 不相上下。特別是,模型的訓練成本僅約 558萬美元,僅為 GPT-4o 的1/20,資源運用效率極高。
深度求索 (DeepSeek) 的DeepSeek-V3 擁有 6710億個參數,僅用兩個月的時間和 558萬美元的成本就完成了訓練,其成本效益遠優於其他大型科技公司開發的模型。
值得一提的是,DeepSeek-V3 主要有幾項獨特的技術創新:
1、混合專家 (MoE) 架構:
DeepSeek-V3 採用MoE架構,通過稀疏激活機制,僅需激活37億個參數,顯著降低計算量,同時提升模型的處理能力。
2、多頭潛在注意力 (MLA) 機制:
MLA 架構能降低 5%—13% 的推理視訊記憶體,進一步優化模型的訓練效率和生成速度。
3、FP8 混合精度訓練框架:
該框架降低了內存佔用,加快計算速度,並與 MLA架構結合,減少資料量,降低記憶體佔用,因而即使在硬體性能受限的情況下,依然能夠高效完成大規模模型的訓練。
4、DualPipe算法:
該算法有效降低跨節點通信的開銷,進一步降低了訓練成本。
5、資料壓縮、選擇性處理、知識蒸餾:
DeepSeek採用資料壓縮、選擇性處理、知識蒸餾等技術,優先處理重要資料,簡化次要資料,提高訓練效率。
以上這些技術創新使得 DeepSeek-V3 在性能上可與頂尖的閉源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相媲美,同時在成本控制上實現了突破,被譽為 AI 界的「拼多多」。
■DeepSeek顛覆了矽谷對大型語言模型的傳統「訓練」認知
人工智慧 (AI) 領域的發展日新月異,其中,大型語言模型 (LLM) 更是備受矚目。
據稱,「DeepSeek-V3」的訓練成本極低,只用2048張 H100 的 GPU集群,且用時僅 53天,真的太不可思議了。
如今,DeepSeek的中國新創公司異軍突起,不僅在技術上取得了重大突破,更以其不可思議的發展模式,顛覆矽谷的既有AI發展模式。
DeepSeek之所以能引起全球關注,主要是其在大型語言模型DeepSeek-V3 和 DeepSeek-R1的技術突破,尤其,能以驚人的「低成本」創造「高算力」,在性能上與 OpenAI的 GPT-4o相媲美,此顛覆矽谷對於訓練大型語言模型的傳統認知,其也證明即使在有限的資源下,也能開發出具有競爭力的 AI模型,這可能意味著未來不需要大型 GPU集群,即能訓練前沿的大語言模型。
尤其,其同步開源模型權重,允許用戶利用其模型輸出,通過模型「蒸餾」等方式訓練其他模型。
DeepSeek-R1 在各項指標上媲美每月 20美元的 ChatGPT o1版本,但卻完全免費。此外,DeepSeek-R1 的 API服務定價也相當親民,每百萬輸入tokens 僅1元 (快取命中)/4 元 (快取未命中),每百萬輸出 tokens 16元,輸出 API價格只有 OpenAI o1 的3%。其「高性價比」將源源不斷吸引APP開發者投入此架構懷抱。
除了技術創新上的突破,DeepSeek的企業運營模式也值得關注。
與其他大型語言模型公司不同,DeepSeek並未依賴大量的外部融資,而是通過其在量化投資領域的盈利,為 AI研發提供資金支持。這種「自給自足」的模式,使得DeepSeek能夠更加專注於「技術創新」,而不必過度追求「商業化」。
目前,DeepSeek的出現,不僅挑戰OpenAI 等國際 AI巨頭的地位,也為中國在 AI領域的發展注入了新的活力。DeepSeek-V3 被認為是全球「性價比最高」的大語言模型,尤其在開源模型品類中排名全球第一。
■DeepSeek發布新款「開源」AI模型Janus-Pro和JanusFlow
DeepSeek在1/28 日發布開源多模態AI模型 Janus-Pro和JanusFlow,其中 Janus-Pro-7B 在GenEval和 DPG-Bench 基準測試中打敗 OpenAI 的 DALL-E 3 和 Stable Diffusion。
Janus-Pro是一款統一多模態理解與生成的創新框架,透過去耦合視覺編碼的方式,大幅提升了模型在不同任務中的適配性與表現。
JanusFlow則是一款透過生成流 (Rectified Flow) 與自迴歸語言模型融合實現統一的框架,不僅在理解任務中表現優異,還能製作高品質影像,同時展現框架設計的極簡與強大。
AI觀察家 Rowan Cheung表示,DeepSeek的新模型可以為人工智慧效能設定新標準。AI 戰局正迅速變化,競爭可能會更加劇,新模式的出現,會導致進一步的創新,並可能導致更多的市場波動。
二、「華爾街」在害怕什麼?
■DeepSeek在蘋果中國及美國區免費App下載榜,迅速站上第一
最新數據顯示,DeepSeek開發的大型模型應用程式在中國和美國的蘋果 App Store 免費下載排行榜上均名列第一。
在美國的排行榜上,DeepSeek甚至超越了 ChatGPT。這個成就顯示DeepSeek在行動應用程式領域的迅速崛起和廣受歡迎。
DeepSeek V3 是一種先進的語言模型,採用混合專家(MoE)架構,具有6710億個參數。它針對不同類型的任務使用多個專業的子網路(專家),並使用路由機制將每個輸入導向最合適的專家。
V3模型在每個任務中選擇性地啟動370億個參數,在不犧牲效能的情況下降低了計算成本。
DeepSeek R1 則是一款在 AI 推理能力方面有重大進展的模型。它專門處理需要精確邏輯思維、數學問題解決和程式碼專業知識的任務。
R1 模型基於強化學習原則的架構,透過試錯學習,發展出類似人類推理的解決問題策略。
DeepSeek應用程式的成功,與其背後的 DeepSeek-R1模型有密切關係。
R1模型以其「品質好、價格低」的特性,在開發者社群中引起了轟動。該模型是開源的,並採用 MIT許可協議,支援免費商業使用、任意修改和衍生開發。
DeepSeek的模型以每百萬 tokens 0.1 元人民幣的低成本著稱,被業界譽為「AI 界的拼多多」。
■DeepSeek顛覆了「先進晶片至上」的傳統訓練邏輯
Perplexity AI 創辦人史里尼瓦斯 (Arvin Srinivas) 表示,DeepSeek在資源限制條件下的創新架構,顛覆了傳統AI 訓練的「先進晶片至上」邏輯。
DeepSeek透過優化混合專家模型 (MOE),解決了長期困擾產業的數值不穩定性問題,例如損失峰值的頻繁出現,其技術方案無需依賴額外基礎設施即可穩定訓練流程,這種突破「足以被 Meta 借鏡到 Llama 4」。
此外,該團隊在 GPU記憶體受限的挑戰下,開創性採用 8位元浮點訓練,動態平衡高精度與低精度計算,僅用 60天完成模型更新,並支援低成本重複訓練;而美國主流仍停留在 16浮點訓練階段。
更令人矚目的是,DeepSeek以極低資源消耗、打造出性能相當於 GPT-4o 的模型,API價格便宜 10-15倍,速度達每秒 60 tokens,部分基準測試甚至接近或超越頂級閉源模型。
這種效率革命不僅驗證了「必要是發明之母」的創新邏輯,更透過開源策略挑戰了「中國僅擅長複製」的刻板印象,其開源的 405B模型品質接近 GPT-4,遠超美國 70B級本地運行模型。
DeepSeek的技術透明化,如公開 14.8兆 tokens訓練資料與開源生態佈局,可能引發全球開發者倒戈,威脅美國閉源模式的壟斷地位,甚至倒逼 Meta (META-US) 等公司調整技術路線,重塑產業競爭格局。
■「DeepSeek」「深度思考」和「聯網搜索」功能,將成ChatGPT最佳替代品
近來在中國相當熱門的大模型「DeepSeekV3」的AI助手應用程式,結合「深度思考」和「聯網搜索」兩大核心功能,支援使用者完成對話、語言翻譯、創意寫作、程式設計、解題、文獻解讀、旅行規劃等各種功能,可助力高效美好的生活。
更重要的是,這款應用程式為「免費體驗」,並被網友評價為「ChatGPT 最佳免費替代品之一」。
此外,跟網頁版本相比,應用程式還多了一個「拍照識文字」的功能,但僅支持識別文字,照片等其他東西就會解析失敗。
在多項測評上,DeepSeek V3 達到了開源 SOTA,超越 Llama 3.1 405B,能和 GPT-4o、Claude 3.5 Sonnet 等 TOP模型正面交鋒,且價格較 Claude 3.5 Haiku 還便宜,僅為 Claude 3.5 Sonnet 的 9%。
若要平衡性能和成本,這款應用程式也成了DeepSeek官方繪圖中唯一闖進「最佳性價比」三角區的模型。
2024年 5月,DeepSeek-V2 發佈,「幻方量化」成功轉型為 AI 先驅,其超低價格甚至引發中國國內大模型價格戰,DeepSeek也被迅速冠以「AI 界拼多多」之稱。
■IBM執行長:DeepSeek證明我們是對的
IBM(IBM-US) 執行長 Arvind Krishna 在2/4 日於《財富》撰文評論,指 DeepSeek 挑戰了傳統AI模型的訓練觀念。
長期以來,許多人認為訓練最先進的 AI模型需要超過10億美元的資金和數千顆最先進晶片,認為 AI 必須是專有技術,只有少數公司擁有開發所需的專業人才,因此保密至關重要。
然而,DeepSeek 證明了這些觀點並非絕對。
首先,DeepSeek僅使用約 2,000顆輝達 (Nvidia)(NVDA-US) 晶片,以遠低於預期的成本——約 600萬美元,便訓練出最新模型。
這正好印證了 IBM一直以來的觀點:小型且高效率的模型也能帶來真正的成果,而無需依賴龐大的專有系統。
其次,DeepSeek的這項技術突破引發了更重要的問題:誰將塑造 AI 的未來?
AI 發展不再被少數幾家公司壟斷,AI 發展解決方案並非限制別人進步,而是確保 AI 的發展由大學、企業、研究機構和公民社會組織等多方合作推動。
這意味著,真正的創新與進步只能透過 AI 的民主化來實現。
Arvind Krishna 認為DeepSeek 帶AI創新與進步的啟示:
小型、開源模型才是未來發展的關鍵。
DeepSeek 給我們的啟示是,最好的工程技術應該同時優化效能與成本。
過去,AI 長期被視為一場規模競賽——模型越大,效果越好。但真正的突破不僅僅在於規模,還在於效率。AI 的炒作時代該結束了。
在 IBM 的研究中,我們發現適用於特定用途的模型已經讓 AI 推理成本降低最高 30倍,使其訓練變得更有效率且更可及。
他相信 2025 年必須成為將 AI 從少數企業手中釋放的一年,到了 2026 年,社會各界不應僅是使用 AI,而是都能參與 AI 的建構。
他並不認同AI 的未來取決於建造占地如曼哈頓般龐大、需要核能供電的資料中心。這些說法製造了錯誤的選擇題。
並沒有物理定律規定 AI 必須保持昂貴,訓練與推理的成本並非固定不變,而是一個可透過工程技術解決的問題。
無論是傳統企業還是新創公司,都有能力推動成本降低,讓 AI 變得更實用、更普及。
他認為,隨著技術進步與規模經濟發展,這些成本大幅下降,進而催生了一波又一波的創新與應用普及。
因為,技術只有在變得可負擔且易於取得時,才真正具備變革性。透過擁抱開放且有效率的 AI 模型,企業將能夠運用適合其需求的更具成本效益的解決方案,讓 AI 的潛力在各產業全面釋放。
■諾貝爾獎得主艾塞默魯:DeepSeek洩漏矽谷AI投資一個盲點
去年榮獲諾貝爾經濟學獎得主艾塞默魯(Daron Acemoglu)是研究AI的知名學者之一,但他並未對中方新創公司DeepSeek的崛起感到興奮或恐懼。
他直言,無論是爭相下載R1的用戶,還是付費使用OpenAI的ChatGPT的使用者,大多數人只是把它們當作玩具來探索,不過他話鋒一轉,點出矽谷AI投資一個明顯的盲點。
來自麻省理工學院的艾塞默魯,他承認DeepSeek最新的AI產品R1確實是一項令人印象深刻的成就,似乎提供了一種比美國公司如OpenAI所開發的模型更便宜、更高效的替代方案。
自ChatGPT問世以來,艾塞默魯一直在分析AI可能帶來的影響。他認為,AI將帶來強大影響,並可能取代多達5%的勞動力。
但是,與科技界和華爾街許多專家所預測的世界將產生變革性影響,艾塞默魯的預測則相對保守,甚至顯得有些悲觀。他說:「我希望我是錯的,我希望AI真的能帶來生產力增長,那將會很酷,但我目前還看不到這樣的趨勢。」
艾塞默魯認為,大型科技公司已在AI長期戰略上投入大量資源,現階段不可能輕易改變方向。但他指出,DeepSeek的意外成功凸顯了投資界與矽谷所形成的危險盲點,艾塞默魯說:「這顯示美國這個市值數兆美元的AI產業存在嚴重的集體思維,使他們從未考慮過其它可能性。那麼,還有什麼是他們忽略的?」
■DeepSeek拆了輝達「護城河」?
由於DeepSeek團隊走了一條具「中國特色」的路——針對輝達 (NVDA-US)GPU 低階彙編語言 PTX進行最佳化實現最大效能,讓業界擔心輝達CUDA 護城河不存在了。
DeepSeek低成本訓出的 R1,在 2,048 個 H800 GPU 集群上,訓出 6710 億參數的MoE語言模型,比頂尖 AI 效率高出 10倍。尤其這項突破不是用 CUDA實現的,而是透過大量細粒度優化以及使用輝達的類別彙編等級的 PTX(並行執行緒執行)程式設計。此方式再次掀翻 AI圈了。
在訓練 V3 模型時,DeepSeek對輝達 H800 GPU 進行了重新配置:在 132個流處理器多核心中,劃分出 20個用於伺服器間通信,主要用於資料壓縮和解壓縮,以突破處理器的連接限制、提升事務處理速度。
為了最大化性能,DeepSeek還透過額外的細粒度線程 / 線程束級別調整,實現了先進的管線演算法。
這些優化遠超常規 CUDA 開發水平,但維護難度極高。然而,這種等級的優化恰恰充分展現DeepSeek團隊的卓越技術實力。
這是因為,在全球 GPU 短缺和美國限制的雙重壓力下,DeepSeek等公司不得不尋求創新解決方案。
亦即,DeepSeek在使用 H800 GPU 訓練 V3模型時,DeepSeek對 GPU核心運算單元(流處理器多核心,簡稱 SM)進行了客製化改造以滿足特定需求。
在全部 132 個 SM中,他們專門劃分出 20個用於處理伺服器間通訊任務,而非計算任務。這種客製化工作是在 PTX(平行執行緒執行)層級進行的,這是輝達 GPU 的低階指令集。
PTX 運行在接近組譯語言的層面,能夠實現暫存器分配和執行緒 / 執行緒束級別調整等細粒度最佳化。然而,這種精細的控制既複雜又難以維護。
這也是為什麼開發者通常會選擇使用 CUDA這類高階程式語言,因為它們能為大多數平行程式設計任務提供充分的效能最佳化,無需進行底層最佳化。
假如,DeepSeek晶片資源不受限、並想實現最佳化計算需求時,就可直接利用 CUDA。CUDA 是一種高階語言。它使程式碼庫的開發和與輝達 GPU 的介面變得更簡單,同時也支援快速迭代開發。因為CUDA 可以透過微調底層程式碼(即PTX)來優化效能,而且基礎庫都已經完備。
但是,DeepSeek晶片資源受限、又需要將 GPU資源效能發揮到極致、並實現最佳化計算需求時,DeepSeek就不得不自行編寫PTX,讓它在底層工作時,允許進行微觀層面的最佳化。
由於Deepseek 無法使用 Nvidia 的CUDA來架構V3模型與輝達 H800 GPU,只媽透過大量精密調整的自行編寫PTX併行線程執行代碼,以達成利用較低規格的硬體、但產出高效能 AI 模型表現。
所以有人質疑,如果DeepSeek開源了 CUDA替代品,這會代表什麼?
■DeepSeek繞過CUDA實現突破,此方式恐將改變AI產業發展格局?
據 Mirae Asset Securities Korea 分析,這項突破的關鍵在於DeepSeek實施了大量細粒度優化,並採用了自行編程輝達的 PTX(平行執行緒執行),以貫通輝達 H800 GPU,而非使用傳統的 CUDA方法。
輝達 PTX(平行執行緒執行)是專門為其 GPU 設計的中間指令集架構,位於高階 GPU程式語言(如 CUDA C/C++ 或其他語言前端)和低階機器碼(如串流處理彙編或 SASS)之間。例如,寄存器分配和線程 / 翹曲級別調整,這些優化在 CUDA C/C++ 和其他高級語言中難以實現。
當 PTX程式碼被轉換為 SASS後,將針對特定一代的輝達 GPU進行深度最佳化。作為一種接近硬體的 ISA,PTX是一種接近底層的指令集架構,能夠將 GPU暴露為資料並行計算設備,從而實現細粒度優化。當PTX將GPU呈現為資料並行運算設備,因此能夠實現暫存器分配、執行緒 / 執行緒束級調整等細粒度最佳化,這些是 CUDA C/C++ 等語言無法實現的。
在訓練 V3模型時,DeepSeek對輝達 H800 GPU 進行了重新配置,以自行編程的 PTX手法克服處理器的連接限制、並加快交易速度,DeepSeek也實現了先進的管道演算法,透過更精細的線程 / 翹曲等級調整來進一步提升性能。
這些優化措施遠超出了標準 CUDA 開發範疇,但同時帶來了更高的維護難度。這種高水準的最佳化反映了DeepSeek工程師的卓越技術能力。
在全球 GPU 短缺以及美國相關限制的背景下,DeepSeek透過創新解決方案實現突破。
這項突破引發了市場關注,部分投資人擔心,新的 AI 模式對高效能硬體的需求可能會下降,進而影響輝達等公司的銷售。
然而,英特爾 (INTC-US) 前執行長季辛格 (Pat Gelsinger) 等業界人士認為,AI 等應用仍需要盡可能多的運算能力。季辛格指出,DeepSeek的突破可能是將 AI 技術引入大眾市場中各種廉價設備的一種方式。
不過可以確定的是,由於DeepSeek的 V3模型進行了「深度底層優化」。簡而言之,其最佳化方式可以概括為他們「從底層重新建構了整個系統」。
因此DeepSeek已引領另一方向—在資料處理提煉和演算法平台最佳化方面,仍有巨大潛力可以挖掘,未來必將湧現更多創新的最佳化方法。
■DeepSeek「低成本」建模方式,引發AI發展過度依賴先進晶片質疑?
DeepSeek推出新的人工智慧模型,該模型在編碼、數學和一般知識能力方面表現優異,更重要的是,其成本遠低於競爭對手,這對美國在人工智慧領域的領導地位構成了挑戰。
特別是DeepSeek R1,除效能優越且成本低廉,其「開源」性質使其程式碼可以公開存取、修改和分發,這意味著任何人都可以免費下載並運行它。這種模式促進了分散式協作開發,並允許使用者根據自己的需求修改程式碼。
這與 OpenAI 等公司的「封閉」原始碼模式形成了強烈對比。
DeepSeek R1 的出現,對美國OpenAI 等公司在人工智慧領域的領導地位構成威脅。因DeepSeek R1模型以極低的成本,打破美國公司在 AI 技術方面的壟斷。
尤其DeepSeek的成功,讓業界質疑在 AI 技術上投入數百億美元的必要性?
DeepSeek的這項突破不僅展現了其在技術上的創新能力,也為 AI產業未來發展提供了新的思路和方向。
只是,DeepSeek的出現並非意味著前沿 LLM的開發,不再需要大規模 GPU叢集?而是指引出低成本的替代架構,亦即不需晶片軍備競賽,讓未來AI產業的發展,將不再被七巨頭們所壟斷!
當然Google、OpenAI、Meta 和xAI在運算資源上的巨額投資,並非意味著最終將付諸東流,但在終端應用上將要面臨成本的競爭。
■DeepSeek掀起「開源生態」與「閉源生態」的話語權之爭?
近日,中國 AI公司DeepSeek並未使用最強大的 AI 晶片,卻以驚人的低成本和運算資源,成功開發出最先進的 AI模型,震驚了整個 AI 界和投資界。
由於受到美國的晶片出口禁令,DeepSeek不得不使用較弱的 GPU (Nvidia H800s 而非 H100s),但這反而迫使他們開發出新的高效方法。
儘管DeepSeek使用的技術,如混合專家架構和思維鏈推理,在 AI產業早廣為人知,並被所有主要的 AI 研究實驗室使用。
但DeepSeek的創新之處,在於將這些技術應用於其模型,並針對資源限制的情況進行優化。
DeepSeek的創新方式中,最大影響是引領其他 AI實驗室利用大型模型 (DeepSeek-V3) 教導小型模型 (R1) 成為推理模型的方法。
V3 生成了80萬個帶有問題和答案的文字樣本,這些樣本展示了問題的思維鏈。經過一段時間的訓練後,較小的 R1模型開始自發地「思考」答案。
亦即,此模型會根據答案的正確與否來調整自己的方法,直到找到正確答案。
尤其DeepSeek公開其研究論文和模型,供其他開發者使用,引發兩個關鍵疑問:美國是否在 AI 競賽中失去優勢?以及企業是否真的需要投入像之前認知的、那麼多昂貴的 AI晶片?
Stability AI 創辦人 Emad Mostaque指出,OpenAI 最新模型 o1不會展示推理過程,認為DeepSeek的技術並非抄襲,而是透過強化學習實現的。他將 R1 模型比作 AlphaGo Zero,透過自我對弈來提高能力,並表示那些說抄襲的人不了解強化學習的運作方式。
據《金融時報》報導,OpenAI 認為已發現DeepSeek使用 OpenAI 模型生成的內容來訓練自己的模型,這違反了 OpenAI 的條款。
Emad則認為,現在全網都是 AI生成內容,模型訓練時吃到點 OpenAI 資料殘渣很正常。他甚至點名 Llama 和 Gemini,指出它們的訓練資料中也混入了GPT的基因。
DeepSeek爭論背後,其實是隱喻「開源生態」與「閉源生態」的話語權之爭。
由於OpenAI採取「收費」模式,導致不充值的人,就不能用了。
這也讓OpenAI對全球使用者的滲透率,一直提不上去。
而且,它是閉源的。別的公司想利用OpenAI的基礎設施來開發APP,也用不上。
反之,DeepSeek直接開源、免費,短短一個星期,DeepSeek就迅速席捲全球了,在150個國家皆登上榜首。
因為像印度、非洲、拉丁美洲,東南亞以及歐盟等地區,都沒有能力研發頂尖的AI大模型。那他們怎麼辦呢?怎麼趕上AI時代呢?就一個辦法:全部投入DeepSeek的懷抱,直接抄DeepSeek的原始碼,再結合本地資料,做好深度定製。
例如,印度資訊部部長明確要求,十個月內,在印度大規模部署DeepSeek大模型,助推印度AI產業的發展。
歐盟、日韓、東盟以及美國微軟、亞馬遜、輝達等頂尖科技公司,也全部接入DeepSeek了。
如果說,OpenAI是美國的,那麼,DeepSeek就是全人類的。
但天下沒有免費的午餐,接受了DeepSeek的開放原始碼,在AI技術上就得依賴於中國的輸出了。DeepSeek原始碼不更新,其他公司的AI技術就都停滯不前了。因為DeepSeek是技術源頭。
DeepSeek開源後,就跟Android一樣。因為它是免費的,當其他公司都習慣了DeepSeek,也耗費巨大人力、物力,做好了本地化改造,而技術升級呢?就都掌握在中國了!
美國也好,歐盟也罷,再加上印度,巴西,阿根廷等公司,只要依賴上DeepSeek了,就沒法擺脫了。就依賴上DeepSeek,沒法擺脫了!
總之,這場爭論背後是隱喻「開源生態」與「閉源生態」的話語權之爭,也可能代表 AI 進化路線的終極對決。而開源,才能通吃全世界,殺死所有的潛在對手。實際上,免費的,才是最貴的!
三、欲加之罪、何患無辭?
DeepSeek-V3 的橫空出世,已引發一些AI發展路線質疑?
傳統人士反擊,DeepSeek團隊成員此前並未發表過有影響力的論文或參與過知名的實戰項目,DeepSeek-V3 的卓越性能是否真的源於其技術創新?
DeepSeek創辦人梁文鋒說,矽谷習慣將中國 AI公司視為follow的角色,當一個中國公司以創新者的身份,加入他們的遊戲裡,且表現優異時,他們就很震驚。
其實,更多的投入不一定會產生更多的創新,否則歐美大廠就可以把所有的創新包辦了。
矽谷Lepton AI 創辦人賈揚清則表示,DeepSeek是智慧和實用主義的體現:
在有限的運算資源和人力條件下,透過聰明的研究產生最好的結果。這是一句相當中肯的評價。
■華爾街跌暈了,謠傳DeepSeek梁文鋒放假消息、做空輝達海撈?
中國AI新創公司DeepSeek的AI聊天機器人震撼科技界,讓創辦人梁文鋒一夜成名,標榜「低廉開發成本」造成輝達1/27日暴跌近17%,那斯達克單日市值蒸發約1兆美元。
由於梁文鋒也是「幻方量化」對沖基金創辦人,華爾街大老阿克曼(Bill Ackman)造謠大家關注,「幻方量化」是否有做空輝達海撈一票,美國必須立即啟動調查?
■美國科技巨頭對「數據中心」的巨額投資,既感到震撼、又如坐針氈!
中國人工智慧新創公司「深度求索」(DeepSeek)近期公開低成本、高效益的AI模型後,引起全球人工智慧產業的大震撼,也引起美國科技公司警覺。
微軟 (MSFT-US) 和OpenAI正在聯合調查一起可能涉及資料外洩事件,懷疑有與DeepSeek相關的個人或團體可能透過未經授權的方式,利用 OpenAI 的API竊取了大量資料。因OpenAI的API允許開發人員付費使用其專有的人工智慧模型,並將其整合到自己的應用程式中。此事件暴露出 API 在使用過程中的潛在安全風險。
■美國官員也嚇傻了,立馬以國安為由調查DeepSeek!
一些美國官員試圖把DeepSeek說成是對 OpenAI 技術的「偷竊」,卻無視DeepSeek採用「創新演算法」架構的事實。
先是川普 AI事務主管 David Sacks 聲稱有「確鑿證據」顯示DeepSeek利用了 OpenAI 模型的輸出資料。
美國眾議院首席行政事務官也向國會辦公室發出通知,警告國會辦公室不要使用DeepSeek的服務。
值得注意的是,美國官方也對DeepSeek表達關切,並進行國家安全調查。這反映出美國政府對DeepSeek技術的擔憂,以及其可能對美國國家安全造成的潛在威脅。
此外,美國國防部、國會等主要行政機關也基於「潛在安全和道德問題」,要求人員避免以任何形式使用中國公司的DeepSeek模型。
美國聯邦參議員霍利(Josh Hawley)近期更在國會提案,若美國民眾協助中國推動人工智慧或下載並使用DeepSeek,將被定為犯罪,最高可判處20年監禁、並課100萬美元罰款。
該法案還規定,美國個人或企業若與中國的大學或實驗室進行有關AI方面合作將可能觸法。違法公司可被罰款高達1億美元;涉及轉移技術的非美國公民則可能面臨驅逐出境。
另外,德州州長艾波特(Greg Abbott)1/31日宣布,禁止政府機構使用中國大陸企業發表的AI模型「深度求索」(DeepSeek),以及社群媒體小紅書,成為全美50州中,第一個禁止政府單位使用DeepSeek的州。此地無銀300兩?
除了DeepSeek及小紅書,艾波特當天還一口氣禁用多項中國大陸應用程式,包含TikTok姊妹應用程式Lemon8、微牛證券(Webull)、老虎國際(Tiger Brokers),以及中國富途控股(Futu)旗下超級投資平臺Moomoo。
■美國立馬出動小弟圍事
1、澳洲宣布「政府設備禁用DeepSeek」,並強制移除相關軟體
在美國五角大廈宣布禁用之後,澳洲政府也於2/4日宣布,由於擔憂DeepSeek可能帶來的安全風險,已全面禁止在所有政府設備上使用其產品與服務。
澳洲內政部部長托尼伯克(Tony Burke)向所有政府機構發布強制性指令,要求防止使用或安裝 DeepSeek 產品、應用程式及網路服務,並立即移除所有已存在的DeepSeek相關軟體與服務。
2、義大利數位保護監管機構(Garante per la protezione dei dati personali)也正式對DeepSeek展開調查,並要求該公司提供詳細說明,交代其如何處理義大利公民的資料。並在義大利政府發出調查要求後數小時,DeepSeek的應用程式突然從義大利區的蘋果App Store與Google Play Store下架。
3、台灣亦跟進,行政院則是在 2 /3日,依照 2019 年公佈的「各機關對危害國家資通安全產品限制使用原則」,要求公務機關原則上全面禁用 DeepSeek AI 服務。
4、南韓2部會禁用DeepSeek!
南韓外交部、產業通商資源部2/5日通知下轄機關,可連接外部網站的電腦禁用DeepSeek。南韓國營與民營企業也有跟進禁用。
■科技巨頭圍剿DeepSeek,左一口「國安」、右一口「蒸餾」!
OpenAI宣稱公司發現DeepSeek透過「蒸餾」(distillation) 技術使用其模型的一些證據。「蒸餾」指的是將較大、功能較強的模型的知識,提煉至較小模型中,這個較小的模型性能較好且成本較低。
但是,圍剿的背後,是否僅僅是鞏固自身的商業市場佔有率和利益競爭?
還是,更深層的技術理念和發展方向的分歧?
或是,這些打壓行為可能源自於對DeepSeek崛起所帶來生存威脅的擔憂?
然而,在一個倡導創新和公平競爭的社會環境中,這種做法顯然違背了大眾對科技業的期望。科技的進步應在開放與合作的氛圍中實現,而非透過打壓對手來獲取優勢。總之,DeepSeek若不夠強大,還沒人理睬它,此地無銀三百兩啊!
矽谷的科技大戰仍在持續,未來的發展充滿不確定性。對DeepSeek而言,當前的危機、同時也是一場機會。在全球目光的聚焦下,如果DeepSeek能夠憑藉自身的技術實力和創新能力挺過這一輪圍剿,將會獲得大眾對其企業的信任,或許能夠迎來浴火重生機會。大眾且拭目以待,看看DeepSeek如何突圍,看看科技業如何在這場考驗中自我修正,走向更光明的未來?
■OpenAI急忙推出輕量級o3-mini模型應戰,也改採「免費」使用
OpenAI 在2/1日推出新的輕量級人工智慧模型 o3-mini。這款模型不僅效能卓越,更首度向使用者「免費」開放「推理」功能,顯現 OpenAI 欲挑戰近期風頭正盛的DeepSeek。OpenAI表示,雖然 OpenAI o1仍然是用於一般知識推理的廣泛模型,但OpenAI o3-mini 為那些需要精確性和快速反應的技術領域提供了一個專門的替代方案。o3-mini 採用中等推理努力,在速度與準確性之間實現了平衡。
DeepSeek- R1和o3-mini這兩款模型,都可以「回答」與程式設計(Technology)、數學(Mathematics)和科學(Science)等主題相關的複雜問題。
o3-mini 的推出,被認為是 OpenAI 對近期DeepSeek快速崛起的回應。
DeepSeek低成本的優勢,對 OpenAI 造成了一定的壓力。儘管 o3-mini 的價格仍比 DeepSeek-R1 高,但其在效能和功能上的提升,以及首度對免費使用者開放,顯示了 OpenAI 欲保持其在人工智慧領域領先地位的決心。
■DeepSeek刻意繞開輝達「護城河」,這將促成AI科技的「典範移轉」!
深度求索(DeepSeek)在研發大語言模型時,繞過了輝達的軟硬體整合技術「統一計算架構」(CUDA)這道AI技術護城河,並改用新的「演算法」來高效利用硬體層面加速,以提高模型效果。
所謂「繞過CUDA」,意味著DeepSeek可以直接根據GPU的驅動函數,做一些新的開發,從而實現更加細微性的操作。
即只要有足夠擅長寫PTX語言的內部開發者,就能讓DeepSeek開發的AI模型更容易適配中國國產GPU晶片,這讓美國不少AI巨頭們感受到極大的威脅。
譬如, DeepSeek在多節點通信時繞過了CUDA,直接使用並行線程執行代碼(Parallel Thread Excution, PTX),其能實現以「演算法的方式」來高效利用硬體層面的加速。
一旦速度變得更快,這就意味著別人的模型要訓練10天,而DeepSeek只需要訓練5天,那麼就能給模型餵更多的資料,即能讓DeepSeek模型在同等時間內看到更多的資料,間接提高模型的效果。
此也顯示,DeepSeek擁有一些擅長寫PTX語言的內部開發者,其瞭解手中硬體驅動提供的一些基本函數介面,就可以仿照輝達GPU硬體的程式設計介面去寫相關的代碼,從而讓自家大模型更加容易適配國產硬體。
但是,雖然透過PTX可以進行更多專門的最佳化調整,但缺點是很難維持穩定,需要人力大量除錯,因此也顯示出Deepseek工程師的設計功力。
Deepseek的出現,打破了矽谷巨頭在人工智慧競爭中的「軍備競賽」規則,AI 開發者未來不必非要配置最先進晶片和龐大晶片數量,反而透過精細的程式設計也能讓低規設備跑出高效結果,這將促成AI科技的「典範移轉」。
留言列表(6条)
Simply a smiling visitant here to share the love (:, btw outstanding style and design. “Better by far you should forget and smile than that you should remember and be sad.” by Christina Georgina Rossetti.
apah4i
59jd29
zpdnl5
114zad
so much fantastic information on here, : D.