暖暖视频在线观看日本/国产成人精品a视频一区/精人妻无码一区二区三区/成在线人免费视频/17c一起草

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正(zheng)文

面壁智能首席科學家劉知遠:提升知識密度是實現高效大模型的方向

每日經濟新聞 2024-07-05 16:12:16

每(mei)經(jing)記者(zhe)|張韻(yun)    每(mei)經(jing)編輯|董興生(sheng)    

大(da)(da)模型也有自己的(de)“摩爾定律”?2024世界(jie)人工智能大(da)(da)會期間,深耕端(duan)側大(da)(da)模型的(de)清(qing)華大(da)(da)學(xue)(xue)計(ji)算(suan)機系(xi)長(chang)(chang)聘(pin)副教授(shou)、面(mian)壁智能首席科(ke)學(xue)(xue)家劉知遠分(fen)享(xiang)了他的(de)研究(jiu)思路(lu):“如果(guo)擁有在(zai)端(duan)側有限的(de)算(suan)力、內存、能耗條件下,將知識(shi)濃縮到更小(xiao)的(de)參數規模中的(de)能力,那么便可探尋大(da)(da)模型的(de)高效成長(chang)(chang)規律。”

圖片來源:每經記(ji)者(zhe) 張韻 攝(she)

在訓練大模(mo)(mo)型之前(qian),劉知(zhi)遠會在“模(mo)(mo)型沙盒”中做成(cheng)百上千次演(yan)練。他解釋道,在小模(mo)(mo)型上高(gao)效尋(xun)找最優數據和超參配置,并外(wai)推至大模(mo)(mo)型,可找到(dao)一(yi)個更(geng)高(gao)的知(zhi)識密度,從而(er)帶來一(yi)個更(geng)加高(gao)效的模(mo)(mo)型。

劉知(zhi)遠認(ren)為,如果(guo)說芯片制程會帶來終端(duan)算力(li)持(chi)續(xu)增(zeng)(zeng)強,模(mo)型(xing)(xing)制程也(ye)將(jiang)帶來模(mo)型(xing)(xing)知(zhi)識密(mi)度的持(chi)續(xu)增(zeng)(zeng)長,那么兩者交匯將(jiang)揭示端(duan)側智能(neng)的巨大(da)潛力(li)。因此,大(da)模(mo)型(xing)(xing)時代會擁有自己的“摩爾定(ding)律”,即(ji)模(mo)型(xing)(xing)知(zhi)識密(mi)度的持(chi)續(xu)增(zeng)(zeng)強。據劉知(zhi)遠觀(guan)察,模(mo)型(xing)(xing)的知(zhi)識密(mi)度呈現出每8個月提升(sheng)一(yi)倍的規(gui)律。

劉知遠進一步得出結論,未(wei)來高效大模(mo)型第(di)一性原(yuan)理的(de)(de)關鍵詞便(bian)是知識密度(du),也就是每一次計算依(yi)托的(de)(de)參(can)數規模(mo)所(suo)對應的(de)(de)能力消耗。當大模(mo)型數據(ju)驅動技(ji)(ji)術方(fang)向大致確定,模(mo)型的(de)(de)架構、算法、數據(ju)等(deng)技(ji)(ji)術方(fang)案卻仍在(zai)高速(su)迭代,因此持續改進模(mo)型制(zhi)程、極致提升(sheng)知識密度(du)成為行業努力的(de)(de)方(fang)向。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每(mei)日經濟(ji)新聞(wen)》報社授(shou)權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提(ti)醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本(ben)站,可聯系(xi)我們(men)要求撤下您的作品。

歡迎關注每日經濟新(xin)聞APP

每經經濟新聞官方APP

0

0