每日(ri)經濟新聞(wen) 2025-02-27 18:03:27
2月(yue)27日(ri),DeepSeek一(yi)次性開源(yuan)了(le)兩個(ge)工具(ju)和一(yi)個(ge)數據集,分別是DualPipe、EPLB(專家(jia)并行負載均衡(heng)器)以及訓練(lian)和推(tui)理框架的性能分析數據。同(tong)日(ri)凌晨,英偉達(da)公布首份財報,其2025財年第四財季(ji)營(ying)收同(tong)比增長(chang)78%,CEO黃仁(ren)勛點贊DeepSeek并強調推(tui)理模(mo)型計(ji)算需求將更高。
每(mei)(mei)經(jing)記者(zhe)|宋欣(xin)悅 每(mei)(mei)經(jing)編(bian)輯|蘭素英(ying)
2月27日,DeepSeek一次性(xing)開源了兩個工具和一個數(shu)據集,分別是DualPipe、EPLB(專家并行負載均衡器(qi))以及訓練和推理(li)框架的(de)性(xing)能分析數(shu)據。此外,DeepSeek還在Github上詳(xiang)細講解了DeepSeek-V3和R1模型背后的(de)并行計算優化技術。

圖片來源:X
據介紹,DualPipe是一種用于V3和R1訓練中計算與通信重疊的雙向流水線并行算法。DeepSeek-V3就首次使用了該方法。與傳統的1F1B(交替執行前向和后向傳播)和ZB1P(零氣泡單向流水線)方法相比,DualPipe大幅減少了流水線氣泡,同時僅增加了1倍的激活內存峰值。

圖片來源:Github
值得一提的是,在GitHub網站上的DualPipe項目介紹中,DeepSeek創始人梁文鋒在開發者之列。
EPLB是為V3和(he)R1打造的(de)專(zhuan)家(jia)(jia)(jia)并行負載(zai)(zai)平(ping)衡器(qi),針對(dui)混合專(zhuan)家(jia)(jia)(jia)(MoE)模(mo)(mo)型的(de)分布式訓練和(he)推理設計(ji)。在傳(chuan)統的(de)MoE模(mo)(mo)型中,專(zhuan)家(jia)(jia)(jia)負載(zai)(zai)的(de)不平(ping)衡會導致計(ji)算資源的(de)浪費,尤其是在專(zhuan)家(jia)(jia)(jia)并行(EP)的(de)場景下(xia),這種不平(ping)衡會進(jin)一步加(jia)劇通信開銷。而EPLB通過動態調整每個專(zhuan)家(jia)(jia)(jia)的(de)負載(zai)(zai),確保(bao)在訓練過程中專(zhuan)家(jia)(jia)(jia)之(zhi)間的(de)負載(zai)(zai)保(bao)持平(ping)衡。
而公(gong)布訓練和(he)推理(li)框架的分(fen)析數據是為了幫(bang)助社區(qu)更好地了解通信計算重疊策略(lve)和(he)底層實(shi)現細節。
不過,對于非專業(ye)人士,這些(xie)密(mi)(mi)密(mi)(mi)麻麻的專業(ye)術語,著實(shi)讓人頭疼。每經小(xiao)編也忍不住想說,“聽君(jun)一席(xi)話,如聽一席(xi)話。”
還(huan)好(hao)我(wo)們有(you)DeepSeek!
每經小編現(xian)在就讓(rang)DeepSeek-R1模型用生活場景中的示(shi)例,把此次開源的三個項目(mu)講得明明白(bai)白(bai)、清清楚楚、透透徹(che)徹(che)!

美東時間周三(北京時間2月27日凌晨)美股盤后,“宇宙最重要財報”來襲。這份財報也是今年1月末DeepSeek橫空出世后,英偉達公布的首份財報。
英(ying)偉達(da)披露的最(zui)新財(cai)(cai)報顯示(shi),2025財(cai)(cai)年第(di)四財(cai)(cai)季實現營收393.31億(yi)美(mei)(mei)元,同比大幅增長78%,高(gao)于市場預期的380.5億(yi)美(mei)(mei)元。在業績指(zhi)引(yin)方面,英(ying)偉達(da)預期2026財(cai)(cai)年第(di)一財(cai)(cai)季的營收將達(da)到430億(yi)美(mei)(mei)元,上下浮動2%,高(gao)于市場預期的417.8億(yi)美(mei)(mei)元。
英偉達(da)CEO黃仁勛在財報中表示,市場對Blackwell芯片的(de)需(xu)求(qiu)令人驚嘆,因為推理(li)AI增(zeng)加了另一種擴展法則——增(zeng)加訓(xun)練的(de)計算能力使(shi)(shi)模型(xing)更智能,而(er)長時間思考的(de)額外算力使(shi)(shi)答案(an)更智能。
稍后,黃仁勛在分析師電話會議上表示,“像OpenAI的o3、DeepSeek-R1、Grok 3等模型正是采用了推理時擴展方法的推理模型,其計算資源消耗是(普通模型的)百倍甚至更多。未來,推理模型的計算需求將會更高。”
黃仁勛還不(bu)忘點贊DeepSeek,稱其是一項出色(se)的創新(xin),點燃(ran)了(le)(le)全(quan)球的熱(re)情。更重要的是,DeepSeek開源了(le)(le)世(shi)界級(ji)的AI推(tui)理模型(xing)。
有評論稱,盡管英偉達(da)的(de)這份(fen)財報在一定程(cheng)度上緩解(jie)了市場擔憂情(qing)緒,但投資(zi)者還(huan)是(shi)覺得英偉達(da)業(ye)績帶來的(de)驚喜(xi)不夠大。
那么,我們要如何解(jie)讀英偉(wei)達的最新財報呢?英偉(wei)達的業績又面臨著哪些壓(ya)力?
針對上(shang)述(shu)問題(ti),我們讓一直努(nu)力(li)“榨(zha)干(gan)”英偉達GPU的“源神”DeepSeek親自來(lai)回答一下。

不得不說
DeepSeek解(jie)讀(du)得(de)相當專(zhuan)業
要(yao)是(shi)再分析(xi)分析(xi)“黃仁勛皮衣銷(xiao)量是(shi)否(fou)同步增長(chang)”
那不妥(tuo)(tuo)妥(tuo)(tuo)“財(cai)報界(jie)單口相(xiang)聲(sheng)”!
But!
“服務器繁忙,請稍后再(zai)試”
真的很讓人頭大!
還(huan)好每日(ri)經濟新聞App火速(su)前來“救場(chang)”
最近,每經App接入了DeepSeek
響(xiang)應(ying)速度快(kuai)到飛起,使(shi)用起來非常絲滑!
不管(guan)是(shi)(shi)問(wen)公司、問(wen)投資、問(wen)基金,還是(shi)(shi)自(zi)由對話,都輕松拿捏!
目前使用量已經超15萬次了!
咋用呢?超簡單!
先下載每日經濟新聞App
//jzqfr.cn/corp/2016app/index.html
再往下看
↓
一(yi)、在每日經(jing)濟新聞App首(shou)頁,點擊“DeepSeek”圖標或首(shou)頁輪播圖“自由問+問公司(si)問投資問基金免(mian)費使用(yong)DeepSeek、Kimi、豆(dou)包(bao)等六款(kuan)大(da)模型(xing)”。

二、進入“每經大模型平臺”頁面,即可使用DeepSeek、Kimi、豆包、智譜清言、文心一言和通義千問6款大模型中任意一款。

最近,每經“136計劃”還增加了新功能:
大模型解讀投資熱榜。

只需點擊投(tou)資熱榜中的任(ren)意新聞
立即就能(neng)得(de)到大模型(xing)的全面(mian)分析
還能一鍵生成圖片分享給朋友。


告別(bie)“服務器(qi)繁忙”
快(kuai)用每日經濟新聞App吧!
如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經(jing)《每日經(jing)濟(ji)新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀(du)者熱線:4008890008
特別(bie)提醒:如果我們使用了您的圖片,請作者與本站聯系索(suo)取稿酬。如您不希望作品出現在本站,可(ke)聯(lian)系我們要求撤下您的作品。
歡迎關(guan)注每日經濟新聞(wen)APP