每(mei)日經濟(ji)新聞 2025-02-02 23:13:01
DeepSeek大模(mo)型的(de)(de)低成(cheng)本(ben)高效能(neng),不(bu)僅挑戰了硅谷巨(ju)頭,也讓華爾街感到(dao)(dao)焦慮(lv)。復旦大學計算機學院副教(jiao)授鄭驍慶(qing)認(ren)為,DeepSeek在工程優化(hua)方面取得了顯著成(cheng)果(guo),實現了性能(neng)與(yu)成(cheng)本(ben)的(de)(de)平衡。但他指出,DeepSeek并不(bu)會對芯片采購量或出貨量產生太大的(de)(de)影響,相反,隨著更多企(qi)業加入到(dao)(dao)大模(mo)型的(de)(de)應用行列(lie),對芯片的(de)(de)需求可能(neng)會增加。
每經記者(zhe)|宋欣悅 每經編輯|高涵
近日,中國AI初創公司深度(du)求索(DeepSeek)在全(quan)球(qiu)掀起波瀾(lan),硅(gui)谷巨(ju)頭恐慌(huang),華爾街焦慮。
短短一(yi)個月內,DeepSeek-V3和DeepSeek-R1兩款(kuan)大模型相(xiang)繼推出,其成本與(yu)動輒數億甚至上百億美元的國外大模型項(xiang)目相(xiang)比堪稱低廉,而性能與(yu)國外頂尖模型相(xiang)當。
作為“AI界的拼多多”,DeepSeek還動搖了英偉達的“算力信仰”,旗下模型DeepSeek-V3僅使用2048塊英偉達H800 GPU,在短短兩個月內訓練完成。除了性價比超高,DeepSeek得到如此高的關注度,還有另一個原因——開源。DeepSeek徹底打破了以往大型語言模型被少數公司壟斷的局面。
被譽為“深度學習三巨頭”之一的楊立昆(Yann LeCun)在社交平臺X上表示,這不是中國追趕美國的問題,而是開源追趕閉源的問題。OpenAI首席執行官薩姆·奧爾特曼(Sam Altman)則罕見地表態稱,OpenAI在開源AI軟件方面“一直站在歷史的錯誤一邊”。
DeepSeek具有(you)哪些創新之處(chu)?DeepSeek的(de)開源策略對行業有(you)何影響?算力(li)與硬(ying)件的(de)主導(dao)地(di)位是否會(hui)逐(zhu)漸被(bei)削弱?
針對上述疑問,《每日經濟新聞》記者(以下簡稱NBD)專訪了復旦大學計算機學院副教授、博士生導師鄭驍慶。他認為,DeepSeek在工程優化方面取得了顯著成果,特別是在降低訓練和推理成本方面。“在業界存在著兩個法則,一個是規模法則(Scaling Law),另外一個法則是指,隨著技術的不斷發展,在既有技術基礎上持續改進,能夠大幅降低成本。”
對于DeepSeek選擇的開源策略,鄭驍慶指出,“開源模型能夠吸引全世界頂尖人才進行優化,對模型的更新和迭代有加速作用。”此(ci)外,開源模型的(de)透明性(xing)有助于消除使用安全的(de)顧慮,促(cu)進全球(qiu)范圍內人工智能技術的(de)公平應用。
盡管DeepSeek的模型降低了算力需求,但鄭驍慶強調,AI模型仍需要一定的硬件基礎來支持大規模訓練和推理。此外,大規模數據(ju)中心和預訓練仍是AI發展的(de)重(zhong)要(yao)組成部(bu)分,但未(wei)來(lai)可能會更注重(zhong)高(gao)質量數據(ju)的(de)微調和強化(hua)學習。

鄭驍慶(qing) 圖(tu)片來源:受訪者供圖(tu)
NBD:微(wei)軟CEO薩提亞·納德拉在微(wei)軟2024年第(di)四季度財報(bao)電話會(hui)上提到,DeepSeek“有一(yi)些真正的創新(xin)”。在您看來,DeepSeek有哪些創新(xin)點呢?
鄭驍慶:在深入研讀DeepSeek的(de)(de)技(ji)(ji)術報告后,我們發現,DeepSeek在降低(di)模(mo)型訓(xun)練和推(tui)理成本方面采用的(de)(de)方法,大(da)多(duo)基于業界已有的(de)(de)技(ji)(ji)術探(tan)索。比如,鍵值緩(huan)存(Key-Value cache)管(guan)理,對緩(huan)存數(shu)據進行壓(ya)縮(suo)。另一(yi)個(ge)是(shi)混合(he)專家模(mo)型(MoE,Mixture of Experts),實際上是(shi)指,在推(tui)理的(de)(de)時候,只需(xu)使用模(mo)型的(de)(de)某一(yi)個(ge)特(te)定的(de)(de)模(mo)塊,而不需(xu)要所(suo)有模(mo)型的(de)(de)網絡結構和參數(shu)都參與這個(ge)推(tui)理過程。
此外,Deepseek還采用了FP8混合精度訓練的技術手段。這些其實之前都有所探索,而DeepSeek的創新之處就在于,很好地將這些能夠降低技術和推理成本的技術整合起來。
NBD:您認為DeepSeek現階段(duan)的技術水(shui)平上是否已經接近(jin)或者達(da)到(dao)了(le)全球領先水(shui)平呢?
鄭驍慶:DeepSeek目前在現有技術基礎上,包括網絡結構訓練算法方面,實現了一種階段性的改進,并非是一種本質上的顛覆性創新,這一點是比較明確的。其改進主要是針對特定任務,例如,DeepSeek在數學、代碼處理以及推理任務等方面,提出了一種在性能與成本上相對平衡的解決方案。然而,它在開放領域(open domain)上的(de)表現,優勢并不是十(shi)分明顯。
在業界存在著兩個法則,一個是規模法則(Scaling Law),即模型的參數規模越大、訓練數據越多,模型就會更好。另外一個法則是指,隨著技術的不斷發展,在既有技術基礎上持續改進,能夠大幅降低成本。
比如說,以(yi)GPT-3為例,早期它的(de)(de)成本(ben)就(jiu)很高。但隨著研(yan)(yan)究的(de)(de)深入,研(yan)(yan)究人員逐漸清楚哪些東西是(shi)工作的(de)(de),哪些東西是(shi)不(bu)工作的(de)(de)。研(yan)(yan)究人員基于過往(wang)的(de)(de)成功經驗,研(yan)(yan)究目標會(hui)逐漸清晰,成本(ben)實際上也會(hui)隨之降(jiang)低。
DeepSeek的成功,我更覺得可能是工程優化上的成功。當(dang)然也非常高興看到(dao)中(zhong)國(guo)的科技(ji)企業在大(da)模(mo)型的時代(dai),在性能(neng)與(yu)成(cheng)本(ben)的平衡(heng)方面取得了顯著進(jin)展,不斷推(tui)動大(da)模(mo)型的使用(yong)和訓(xun)練(lian)成(cheng)本(ben)下降(jiang)。符合剛才我提到(dao)的第二個法則的情(qing)況之下,走到(dao)世界前列(lie)。

NBD:DeepSeek旗下模(mo)型的(de)最大亮點之一是在(zai)訓練和推理(li)過程中顯著(zhu)降低(di)了(le)算力需求。您(nin)認為這種低(di)成本大效能的(de)技(ji)術創新(xin),長(chang)期來看,會對(dui)英偉達等芯片公司產生什(shen)么影響呢?
鄭驍慶:我個人認為,它并不會對芯片采購量或出貨量產生太大的影響。
首先,像DeepSeek或者類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。所謂的消融實驗,即指通過一系列測試來確定哪個方案是有效的以及哪些方案的整合是有效的。而這些測試就非常依賴于芯片,因(yin)為芯片(pian)越(yue)多,迭代次數就越(yue)多,就越(yue)容易知道哪個東西(xi)工作或(huo)者哪個東西(xi)不工作。
比如說,DeepSeek的訓練預算不到600萬美元。它的技術報告中提到,不到600萬美元的資金,是按照GPU的小時數(每小時兩美元)來估算的。也就是說,他們基于之前的很多研究,把整條訓練流程都已經搞清楚的情況之下(哪些是工作,哪些不工作的),重新走一遍。它的GPU的運算速度是多少,運算小時數是多少,然后再乘以每小時兩美元得到的這個結果。報告中也提到了,600萬美元其實沒有包含先期研究成本,比如,在結構上的探索、在算法上的探索、在數據上采集上的探索成本,也沒有涵蓋消融實驗的開銷以及設備的折舊費。所以(yi),我(wo)個人判(pan)斷,對英偉(wei)達(da)其實影響(xiang)不(bu)是那么大。
另外,DeepSeek的研究表明,很多中小企業都能用得起這樣的大模型。盡管訓練成本的下降可能會暫時減少對GPU的需求,但大模型變得更加經濟,會使原本因為模型成本太高而不打算使用大模型的企業,加入到使用模型的行列,反而會增加對于芯片的需求。

NBD:隨著DeepSeek-V3、R1等低成本大模型的問(wen)世,傳統的大規(gui)模數據(ju)中心和高投(tou)入的大模型訓練是否仍(reng)然值得繼(ji)續(xu)推進(jin)呢?
鄭驍慶:我覺得仍然值得。因為首先DeepSeek模型是語言模型,還沒有擴展到多模態,甚至于我們以后要研究世界模型。那么一旦引入多模態之后,對算力的要求和基礎設施要求就會成指數的增長。因為(wei)人工智能不可能僅(jin)僅(jin)局限于語言(yan)體本身,語言(yan)只是智慧的一(yi)種表現,而(er)在(zai)這方面的探索仍然(ran)需要(yao)這樣(yang)的一(yi)個基礎設施。
剛才也提到DeepSeek其實是在很多先期研究的基礎之上,找到了一條性能和成本平衡的一個解決方案。先期研究包括各種各樣的嘗試,怎樣去加速它呢?這個還是需要強大的硬件支持。否則(ze),每迭(die)代一次,就可能(neng)(neng)需(xu)要長(chang)達一年多的時間,這顯然是無法(fa)趕上現在(zai)AI軍備競賽的。而(er)如果有幾萬(wan)張卡,迭(die)代可能(neng)(neng)幾天就完(wan)成了。
另外就是應用方面。即便是模(mo)型(xing)的(de)推理成本再低,當需要支持數千(qian)、數萬甚至更大規模(mo)的(de)并發使用時,仍然需要一個(ge)配備大量顯卡的(de)強大基礎架構來確保穩定(ding)運(yun)行(xing)。
我覺得大規模預訓練這一波潮流可能會弱化,可能不會成為下一步大家爭奪的主戰場。之前這個領域曾是競爭激烈的戰場,但現在看來,成本和產出之間的比例正逐漸趨于緊縮。但是后面兩步——高質量數據的微調和基于強化學習的人類偏好對齊,我相信未來會有更多的投入。
NBD:DeepSeek采用(yong)(yong)開(kai)源模式,與許多國外大模型(xing)巨(ju)頭閉源的做法不同。您怎么看開(kai)源模型(xing)在推動(dong)AI行業發展中的作用(yong)(yong)?
鄭驍慶:DeepSeek目前受到了廣泛地關注和認可。從開源模型與閉源模型的角度來看,我們觀察到,開源模型在積累了以往研究成果的基礎上,在目標明確的情況之下,借助于各種訓練技巧以及模型結構上的優化,特別是吸收先前研究者在大模型領域已驗證有效的原理和方法,開源模型已能夠大致追上閉源模型。
開源模型最大的好處就在于,一旦模型開源,全球的頂尖人才都能基于這些代碼進行進一步的迭代與優化,這無疑加速了這個模型的更新與發展進程。相比之下(xia),閉源(yuan)模型(xing)肯定是沒有這樣的(de)(de)(de)能力的(de)(de)(de),只能靠(kao)擁有這個(ge)閉源(yuan)模型(xing)所屬機(ji)構的(de)(de)(de)內部人才去(qu)推動模型(xing)的(de)(de)(de)迭代,迭代速度相對(dui)受限。
另外,開源模型透明開放,也緩解了公眾對于大模型使用安全的一些顧慮。如果模型閉源,大家在使用過程當中可能或多或少會有一些顧慮。而且開源模型對于人工智能的普及以及全球范圍內的公平應用起到了非常好的促進作用,特別是技術平權方面。也就是說,當一項科學技術發展起來以后,全世界的人,不管來自哪個國家、身處何地,都應用享有平等地享受這種技術所帶來的優勢及其產生的經濟效益。
NBD:DeepSeek團隊成員多(duo)為(wei)國(guo)內(nei)頂尖高校的應屆畢業生(sheng)、在校博士(shi)生(sheng)。您認為(wei)中國(guo)AI是否存在獨特的競爭優(you)勢?
鄭驍慶:我覺得我們的AI上面的競爭優勢,其實是我們的人才數量上的優勢。這幾年,從我個人來看,我們的高等教育,包括碩士、博士的培養,有了長足進步。現在從中國的頭部高校來看,對博士生、碩士生的培養已經比較接近于美國。
在(zai)(zai)這樣的(de)(de)(de)情況之下,我(wo)們(men)(men)的(de)(de)(de)基礎(chu)高等教育(yu)質(zhi)量的(de)(de)(de)提升,使得我(wo)們(men)(men)儲備(bei)了大(da)量的(de)(de)(de)人才。在(zai)(zai)這樣的(de)(de)(de)過程(cheng)當(dang)中,我(wo)們(men)(men)能夠對現有的(de)(de)(de)技術(shu)進行迅速(su)的(de)(de)(de)消化。
實際上,美國許多大模型研究團隊,不乏有華人的身影。大家開玩笑說,現在的人工智能競爭是在中國的中國人和在美國的中國人競爭。要說劣勢,其實我覺得(de)還是很(hen)遺憾的,那就是我們很(hen)少能有顛覆性的創新。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日(ri)經濟新(xin)聞》報(bao)社授權,嚴禁轉載或鏡像,違者必究(jiu)。
讀者熱線:4008890008
特別(bie)提(ti)醒(xing):如果我們使用了您的圖片,請作者與本站聯系索取稿酬(chou)。如(ru)您不希望作(zuo)品(pin)出現在本站,可聯系我們要求撤下您的作(zuo)品(pin)。
歡(huan)迎(ying)關(guan)注(zhu)每日經濟新聞APP