每日經(jing)濟新聞 2025-06-06 21:19:20
6月6日(ri),第七屆北京智源大(da)會(hui)(hui)開(kai)幕,本次(ci)大(da)會(hui)(hui)關(guan)鍵詞(ci)從“大(da)語言(yan)模型(xing)”躍升為(wei)“具身(shen)智能(neng)”與“機(ji)(ji)器人(ren)2.0”。宇樹科技(ji)(ji)CEO王興興等成為(wei)大(da)會(hui)(hui)焦點。面壁(bi)智能(neng)CEO李大(da)海表示,大(da)模型(xing)技(ji)(ji)術(shu)成熟推動產(chan)業(ye)關(guan)注重心(xin)轉移(yi)。智源研究(jiu)院院長王仲遠稱,人(ren)工智能(neng)正加速從數(shu)字世界(jie)走向物(wu)理世界(jie)。與會(hui)(hui)者還就機(ji)(ji)器人(ren)賽(sai)事價值(zhi)、具身(shen)智能(neng)產(chan)業(ye)化關(guan)鍵、機(ji)(ji)器人(ren)形態及(ji)VLA模型(xing)等議題(ti)展開(kai)探討。
每(mei)經(jing)記者|可楊 每(mei)經(jing)編輯(ji)|陳俊杰
早(zao)早(zao)就(jiu)沒了(le)位(wei)置,人墻圍了(le)一層又(you)一層,宇樹機(ji)器人、天工機(ji)器人一登場,就(jiu)調動了(le)全場氣氛。
6月6日,由北京智(zhi)源(yuan)人工智(zhi)能研究院(yuan)主辦的(de)“AI春晚”——第七屆北京智(zhi)源(yuan)大(da)會(以(yi)下簡(jian)稱(cheng)智(zhi)源(yuan)大(da)會)正式開(kai)幕。
大模型(xing)熱潮(chao)進入第三年(nian),智源大會(hui)的(de)關鍵詞已(yi)經從“大語言(yan)模型(xing)”躍升為“具身(shen)智能”與(yu)“機器人2.0”。
作為產業風向(xiang)標(biao),在(zai)智源大會(hui)上,OpenAI創(chuang)始(shi)人(ren)山姆·奧特曼以及“深度學習之(zhi)父”辛(xin)頓曾發表演講;月(yue)之(zhi)暗面創(chuang)始(shi)人(ren)楊植麟曾經歷人(ren)墻(qiang)圍堵,熱(re)度遠超如(ru)今首(shou)(shou)個沖(chong)向(xiang)IPO的智譜(pu)AI;而(er)今,大會(hui)上的“明星”是(shi)宇樹科(ke)技(ji)創(chuang)始(shi)人(ren)、CEO(首(shou)(shou)席執(zhi)行官)王興(xing)興(xing)。
變化的(de)背后,AI(人工智能)正(zheng)加速邁(mai)入“干實事”的(de)新(xin)階段:從機(ji)器人表演(yan)走(zou)向實際應用(yong),從模型訓練走(zou)向產業閉環。物理(li)世界(jie)的(de)復雜性、數據采(cai)集的(de)現實需求(qiu)、人與機(ji)器的(de)自(zi)然交(jiao)互,正(zheng)在共同(tong)推動具身智能成為AI發展的(de)下一個技術高地。

具身智能會客廳(ting)對話(hua)現場(chang) 主辦者供圖
結束(shu)開幕式上(shang)的(de)“智(zhi)源具身智(zhi)能會客廳”圓桌對話后,宇樹科技CEO王(wang)興興在現場安(an)保引(yin)導下離場,想(xiang)要上(shang)前與其交(jiao)流的(de)觀眾被隔(ge)絕在人墻(qiang)外。
這或許是吸取了去(qu)年的“教訓”,彼時的明星公司(si)是月之暗面,楊(yang)植(zhi)麟在(zai)下場后幾度(du)被(bei)人墻圍住無法(fa)脫身。
如果以2022年末ChatGPT的(de)發布作為節點,三屆智源大會,不僅見證了大模型時代AI技術的(de)跨(kua)越(yue)式發展,也折射出人工智能產(chan)業關注重心的(de)變動軌(gui)跡(ji)。
2023年,AI領域風(feng)頭無兩的(de)是(shi)(shi)OpenAI所引領的(de)生成式(shi)大(da)語(yu)言(yan)模型熱潮,當(dang)年大(da)會的(de)高(gao)光時刻是(shi)(shi)OpenAI的(de)代(dai)表人(ren)物山姆·奧特(te)曼(Sam Altman)與“深度(du)學習(xi)之父”辛(xin)頓(dun)(Geoffrey Hinton)的(de)亮(liang)相。
2024年,以月之(zhi)暗面(mian)(mian)、百度、智(zhi)譜AI為代表(biao)的國產(chan)大(da)模(mo)型廠(chang)商迅(xun)速崛起,在語言模(mo)型與多模(mo)態模(mo)型領域競逐成(cheng)“主角”,開(kai)發出Kimi的月之(zhi)暗面(mian)(mian)備受追(zhui)捧。
2025年,具身智能(neng)集中搶鏡(jing),機器人、跨模(mo)態(tai)系統、物理智能(neng)等成為主論壇的重要議題。變化背后(hou),是技(ji)術(shu)路線的演進和應(ying)用價值的再認識。
面(mian)壁智能CEO兼聯合(he)(he)創始(shi)人李大(da)海在接(jie)受《每(mei)日經濟新聞》記者采訪時(shi)表示,技(ji)術的(de)(de)發(fa)展(zhan)是非(fei)線性的(de)(de)。大(da)模型本質上是一項基礎(chu)性技(ji)術,未來(lai)一定是非(fei)常重要的(de)(de)底層(ceng)基礎(chu)設施。隨(sui)著這項技(ji)術逐步成熟,產(chan)業關注的(de)(de)重心自然(ran)也開始(shi)從(cong)底層(ceng)模型向其之上的(de)(de)具體應用轉移(yi),這種關注點的(de)(de)遷移(yi)是合(he)(he)理且(qie)必然(ran)的(de)(de)。
同(tong)時,李大(da)(da)海認(ren)為(wei),大(da)(da)模(mo)型(xing)“奇點”正(zheng)在到來,其身(shen)處其中有非常(chang)強烈的(de)感受,當前(qian)大(da)(da)模(mo)型(xing)在訓練(lian)過(guo)程中,已經能夠利用自身(shen)的(de)特性,反(fan)哺訓練(lian)過(guo)程,實現(xian)大(da)(da)模(mo)型(xing)訓練(lian)的(de)加速,形成(cheng)“用大(da)(da)模(mo)型(xing)訓練(lian)大(da)(da)模(mo)型(xing)”的(de)良(liang)性循(xun)環。“整(zheng)個技(ji)術的(de)發展在加速,(所以)才有外面(mian)能看到的(de)整(zheng)個行業的(de)變化越來越大(da)(da)(的(de)情況)。”
“人工智能正(zheng)加速從數字世界走向(xiang)物(wu)理世界,這是我們對整個大的技術發展趨(qu)勢(shi)的判斷(duan)。”智源研究院院長(chang)王(wang)仲遠受(shou)訪時(shi)表(biao)示。
在2024年(nian)的(de)(de)智(zhi)(zhi)源大會開幕式上,月之(zhi)暗面(mian)、百川(chuan)智(zhi)(zhi)能(neng)、智(zhi)(zhi)譜AI與(yu)面(mian)壁智(zhi)(zhi)能(neng)四家國產大模(mo)型公司(si)曾罕見同臺,展開通(tong)往通(tong)用人(ren)工(gong)智(zhi)(zhi)能(neng)(AGI)之(zhi)路的(de)(de)對話。而2025年(nian),圓桌環(huan)節的(de)(de)對話主角,從(cong)大模(mo)型轉向了具身智(zhi)(zhi)能(neng)。
開年以(yi)來(lai)(lai),具身智能(neng)成為人工智能(neng)領域最熱(re)的(de)(de)(de)關(guan)鍵(jian)詞,伴隨而來(lai)(lai)的(de)(de)(de),是形態各異的(de)(de)(de)機器人頻繁亮相各種公眾賽(sai)事:從(cong)春節晚會(hui)上的(de)(de)(de)舞蹈(dao)表演,到(dao)格斗競(jing)技場上的(de)(de)(de)人形對抗賽(sai);從(cong)物(wu)流(liu)分揀的(de)(de)(de)真實場景模(mo)擬,到(dao)即將在北(bei)京舉辦(ban)的(de)(de)(de)“世界人形機器人運(yun)動會(hui)”。
眼(yan)下(xia)風靡的(de)機器(qi)人(ren)比賽,是驗證技術的(de)試驗場,還是秀(xiu)肌肉的(de)“秀(xiu)場”?
對此,王興(xing)興(xing)認為,當前機(ji)(ji)器(qi)(qi)人(ren)賽(sai)事的價值(zhi)在于讓大眾“看到(dao)機(ji)(ji)器(qi)(qi)人(ren)已經(jing)發展(zhan)到(dao)什么階段了”。他坦(tan)言,盡管人(ren)形(xing)機(ji)(ji)器(qi)(qi)人(ren)還不能(neng)(neng)“真正(zheng)進入家庭干活(huo)”,但通(tong)過格(ge)斗、跳(tiao)舞等全身動(dong)作訓練,一(yi)方(fang)面可以展(zhan)示當前AI控制系(xi)統的水平,另一(yi)方(fang)面,跳(tiao)舞和(he)格(ge)斗,其(qi)實(shi)是機(ji)(ji)器(qi)(qi)人(ren)全身動(dong)作的一(yi)部分。“我們(men)的目(mu)標一(yi)直是希望通(tong)過AI技術讓機(ji)(ji)器(qi)(qi)人(ren)能(neng)(neng)做各種全身動(dong)作,來實(shi)現終(zhong)極目(mu)標,去真正(zheng)解放人(ren)類生(sheng)產力。”
王興興進一步(bu)解釋道,這(zhe)種展示不僅有助于訓練和(he)驗(yan)證模型能力,也開始體現出一定的商業(ye)價值。今年(nian)上(shang)半年(nian),人形機器人租賃市場(chang)就比較(jiao)火爆,王興興認為,這(zhe)也是一種產(chan)業(ye)價值的體現。
北(bei)京人(ren)形機器(qi)人(ren)創(chuang)新中(zhong)心總經理熊友軍也表示,接(jie)下來(lai)的(de)“世界人(ren)形機器(qi)人(ren)運(yun)動會”,不僅包括格斗等競技類項(xiang)目(mu),還(huan)將引入短跑、接(jie)力、足球、舞(wu)蹈等來(lai)自(zi)人(ren)類場景的(de)形式。同(tong)時,賽事中(zhong)還(huan)包含多個真(zhen)實生活和工(gong)業場景,如工(gong)廠的(de)物流搬(ban)運(yun)、醫院(yuan)的(de)醫藥分揀、酒店的(de)服(fu)務應(ying)用等。
熊友(you)軍表示,這些比賽場景(jing)來(lai)自具(ju)體的企(qi)業(ye)(ye)提出的真(zhen)實場景(jing)需求,和(he)機器人(ren)即將走入現實的生活密切相關(guan)。“這是一個很好的訓(xun)練場,對提升機器的技術有很大幫助,也是潛在客(ke)戶了解和(he)跟(gen)機器人(ren)企(qi)業(ye)(ye)溝通(tong)的橋梁(liang)。”
盡管表演與賽事火熱,但(dan)具(ju)身智能(neng)(neng)(neng)(neng)產業化真正的(de)關鍵仍是(shi)“干活”能(neng)(neng)(neng)(neng)力的(de)打造。對(dui)此,銀河通用創始(shi)人王鶴指(zhi)出,當前行業已經(jing)有許多炫酷技(ji)能(neng)(neng)(neng)(neng),但(dan)需要反思的(de)是(shi),如(ru)果(guo)在(zai)真實(shi)環境下無法保證成功率,這些技(ji)能(neng)(neng)(neng)(neng)的(de)產業價值(zhi)就非常有限。
王鶴介紹,銀(yin)河(he)通用(yong)與(yu)智源研究院的(de)聯合(he)團隊正在重點攻關“通用(yong)移(yi)動(dong)抓取”任務(wu),即通過導航與(yu)抓取組(zu)合(he),讓機(ji)器人在貨架等實際工作場(chang)(chang)景(jing)中完成復(fu)雜動(dong)作。王鶴透露,銀(yin)河(he)通用(yong)的(de)機(ji)器人已經(jing)在北(bei)京(jing)值守7家24小(xiao)時無人藥店,由人形機(ji)器人完成取藥和對(dui)接騎手的(de)任務(wu)。他進(jin)(jin)一(yi)步強調,希望賽事(shi)(shi)和應用(yong)場(chang)(chang)景(jing)能進(jin)(jin)一(yi)步打通,用(yong)賽事(shi)(shi)去引(yin)領有價值的(de)、可落地(di)的(de)技能。

人(ren)形機器人(ren)現(xian)場展示格斗 主辦方供圖(tu)
在AI模型(xing)“上天(tian)入地”的浪潮中,被稱為(wei)“AI+機器人”終極(ji)形態(tai)的具身智能,正成為(wei)產業界和學(xue)術界同時瞄準的下(xia)一個技術制高點。
“其(qi)實(shi)我一直(zhi)不(bu)堅持一定要做(成)人(ren)形(機(ji)器(qi)(qi)人(ren))。”在談到人(ren)形機(ji)器(qi)(qi)人(ren)是否是具(ju)身(shen)智能(neng)唯一形態時,王興(xing)興(xing)表示,從工程實(shi)踐角度(du)出發,宇樹(shu)科技早期做機(ji)器(qi)(qi)狗,轉向人(ren)形機(ji)器(qi)(qi)人(ren)屬(shu)于(yu)“順理成章(zhang)”。在一些(xie)場(chang)景中,用輪式底盤替代腿部同樣(yang)非(fei)常實(shi)用。
“但為(wei)什么(me)大(da)家現在喜歡(huan)用(yong)人形,尤其上(shang)半(ban)身(shen)保留人的樣子?核(he)心是因為(wei)現在AI大(da)部分還是依賴人來做(zuo)數據(ju)采(cai)集(ji)。”王興(xing)興(xing)解釋(shi)說,人形機器(qi)人上(shang)半(ban)身(shen)動作和人類(lei)一致,可以(yi)讓AI采(cai)集(ji)數據(ju)、訓練模型都更加方便(bian),“包括我們(men)機器(qi)人跳舞或者做(zuo)一些格斗(dou)和別的比賽,說實在的,如(ru)果你做(zuo)成別的樣子就沒辦(ban)法做(zuo)這個事情”。
不過王興(xing)興(xing)也明(ming)確指出,未來(lai)隨(sui)著AGI的誕生,機器人(ren)的形(xing)(xing)態將會(hui)“千奇百(bai)怪”,比(bi)現在(zai)要多(duo)非常多(duo)倍,甚至多(duo)100倍都(dou)有(you)可(ke)能。但在(zai)當前(qian)階段(duan),人(ren)形(xing)(xing)形(xing)(xing)態仍在(zai)數據采集、模型訓(xun)練(lian)和落地效率上(shang)具備“實用主(zhu)義”的優勢。
與王興興偏向技術(shu)現實主義的(de)觀點(dian)不(bu)同,熊友軍更(geng)看重人(ren)形在未來市(shi)場(chang)中的(de)地(di)位。他(ta)認為,雖(sui)然從技術(shu)上講(jiang),具身智(zhi)能(neng)載(zai)體可以多種多樣,但“人(ren)形機器人(ren)是具身智(zhi)能(neng)發展、研究的(de)最佳(jia)載(zai)體”。他(ta)指出,未來具身智(zhi)能(neng)的(de)最大應用(yong)場(chang)景不(bu)是工業(ye),而是家庭(ting)和商用(yong)服務(wu),“今天工廠(chang)場(chang)景只是‘開胃(wei)小(xiao)菜’”。
熊(xiong)友軍(jun)認(ren)為,人(ren)(ren)(ren)(ren)形(xing)(xing)機(ji)器(qi)(qi)(qi)人(ren)(ren)(ren)(ren)更容易被人(ren)(ren)(ren)(ren)接受。它們會成(cheng)(cheng)為生活中的(de)(de)(de)伙(huo)伴、朋友,甚(shen)至像(xiang)現在很多年(nian)輕(qing)人(ren)(ren)(ren)(ren)所(suo)說(shuo)的(de)(de)(de)——可(ke)能(neng)(neng)是(shi)愛人(ren)(ren)(ren)(ren)。這種人(ren)(ren)(ren)(ren)機(ji)交互的(de)(de)(de)自然程度(du)是(shi)其他形(xing)(xing)態(tai)難(nan)以比擬的(de)(de)(de)。他還補(bu)充道(dao),人(ren)(ren)(ren)(ren)形(xing)(xing)機(ji)器(qi)(qi)(qi)人(ren)(ren)(ren)(ren)適配人(ren)(ren)(ren)(ren)類(lei)環境的(de)(de)(de)成(cheng)(cheng)本更低,如果(guo)不(bu)是(shi)人(ren)(ren)(ren)(ren)形(xing)(xing),就可(ke)能(neng)(neng)需要為機(ji)器(qi)(qi)(qi)人(ren)(ren)(ren)(ren)改造環境。這在實際(ji)部署中會帶來(lai)額外成(cheng)(cheng)本。熊(xiong)友軍(jun)表(biao)示,長(chang)期來(lai)看,人(ren)(ren)(ren)(ren)形(xing)(xing)仍是(shi)具身(shen)智能(neng)(neng)最具發展(zhan)潛力的(de)(de)(de)形(xing)(xing)態(tai)。

展區機器狗 主辦方供圖
在形態(tai)問題的(de)(de)背后(hou),具(ju)身智能(neng)的(de)(de)“智能(neng)”來源何處,是另(ling)一個爭議核心。自動(dong)駕(jia)駛中(zhong),VLA(視覺語言動(dong)作模型(xing))已成為主(zhu)流解(jie)決方案,但面(mian)對具(ju)身智能(neng)中(zhong)復雜度(du)更高的(de)(de)任務環境,VLA能(neng)否“泛化”仍待驗證。
王鶴認為(wei),自(zi)動(dong)駕駛的(de)(de)經(jing)驗已初步證明了(le)“端到端”方案(an)有更好的(de)(de)擴展性(xing),不依賴無窮(qiong)無盡的(de)(de)規(gui)則,而(er)是(shi)通(tong)過數據去驅動(dong)模(mo)型(xing)。他表示,VLA的(de)(de)意(yi)義在于,通(tong)過視覺觀(guan)測和自(zi)然語(yu)言指(zhi)令,直接輸出動(dong)作決策(ce),中間不再需(xu)要其他環節。這種路徑(jing)可(ke)以讓模(mo)型(xing)更充分地(di)吸(xi)收數據背后的(de)(de)知識,發揮出最(zui)大的(de)(de)性(xing)能,而(er)不受制于模(mo)塊化方案(an)。
不(bu)過,王鶴(he)也直(zhi)言,目前VLA是(shi)具(ju)身智能(neng)研(yan)究的(de)熱點(dian),只(zhi)是(shi)針對VLA究竟要突破什么,行業同樣有不(bu)同觀(guan)點(dian)。比如,有人(ren)希望把(ba)人(ren)類能(neng)做的(de)所(suo)(suo)有事情都整合(he)到VLA中,形成一(yi)個(ge)基座模型(xing)。王鶴(he)認(ren)為這太著急了(le)。他(ta)指(zhi)出,人(ren)類認(ren)知不(bu)是(shi)只(zhi)有視(shi)覺(jue)和(he)語言,還包(bao)括(kuo)力(li)覺(jue)、觸覺(jue)、嗅覺(jue)、味(wei)覺(jue)、溫覺(jue)、聽覺(jue)??“所(suo)(suo)以(yi)VLA只(zhi)能(neng)是(shi)一(yi)個(ge)起(qi)點(dian),要想真正(zheng)做到人(ren)類級別的(de)具(ju)身智能(neng),只(zhi)能(neng)不(bu)斷融合(he)新的(de)模態。”
王(wang)鶴認為(wei),目前(qian)VLA最適合的(de)任務(wu)是(shi)(shi)移動(dong)、抓取和放置。這(zhe)些以視覺為(wei)主,加上末(mo)端的(de)觸覺或力(li)覺傳感器即可執行,這(zhe)類任務(wu)在工業和服務(wu)場景中(zhong)已(yi)經足夠(gou)廣泛,如果能(neng)先將(jiang)這(zhe)類VLA模型做扎實,“將(jiang)會是(shi)(shi)具身智能(neng)真正第(di)一次高潮的(de)到(dao)來”。
穹(qiong)徹智能(neng)聯合(he)創始?、上(shang)海交通(tong)?學教授、上(shang)海創智學院副院?盧(lu)策吾則(ze)補充,VLA模(mo)型“確(que)實集合(he)了(le)機(ji)器(qi)人(ren)(ren)幾件要(yao)(yao)干的(de)(de)事”——Vision(視(shi)覺)理解世(shi)界(jie),Language(語(yu)言)與(yu)人(ren)(ren)類溝通(tong),Action(動作(zuo))改變世(shi)界(jie)。但他也指出VLA當前(qian)存在(zai)很(hen)大的(de)(de)限制。具身智能(neng)面對(dui)的(de)(de)物理世(shi)界(jie)比無人(ren)(ren)駕駛復雜(za)得多,無人(ren)(ren)車只需在(zai)兩個維(wei)度做決策,且場景(jing)相對(dui)固定,而通(tong)用(yong)具身智能(neng)的(de)(de)場景(jing)是開(kai)放且有(you)接觸的(de)(de),空間更大、不(bu)(bu)(bu)確(que)定性更多。因此,要(yao)(yao)做到通(tong)用(yong),就要(yao)(yao)壓縮(suo)它的(de)(de)“不(bu)(bu)(bu)確(que)定性”,并不(bu)(bu)(bu)停地在(zai)兼(jian)容框架中增加更多額外信(xin)息(xi),在(zai)端到端的(de)(de)模(mo)型里壓縮(suo)它的(de)(de)空間。
此外,他(ta)強調對(dui)物(wu)理(li)(li)世(shi)界(jie)理(li)(li)解(jie)能(neng)力(li)的(de)增強也是(shi)“壓縮任務空(kong)間”的(de)關(guan)鍵。穹(qiong)徹團隊(dui)在其第(di)二(er)代“機器(qi)人大腦”中,加入了“數(shu)字基因”“仿真(zhen)數(shu)據資產(chan)(chan)”等模塊,希(xi)望通(tong)過仿真(zhen)產(chan)(chan)生(sheng)大量數(shu)據,減少真(zhen)實(shi)世(shi)界(jie)中訓練對(dui)樣本(ben)量的(de)依賴。盧策吾認(ren)為,找(zhao)到更聰明的(de)方式理(li)(li)解(jie)世(shi)界(jie),把(ba)它(ta)們融合到VLA里,才(cai)可能(neng)真(zhen)正推動通(tong)用智能(neng)的(de)拐(guai)點出現。
從人形機器(qi)人的路徑分歧,到VLA模型的能(neng)力邊界(jie),在具身智能(neng)這條路上,數(shu)據仍是燃(ran)料,形態(tai)(tai)仍有博弈。但最終(zhong),理解世界(jie)并與(yu)之(zhi)交(jiao)互(hu)的能(neng)力,或許才是決定智能(neng)生命形態(tai)(tai)的關鍵點。
如需轉載請與《每日經濟新聞》報社聯系。
未經(jing)《每日經(jing)濟新聞》報社授權,嚴(yan)禁轉(zhuan)載或鏡像,違者必(bi)究。
讀(du)者(zhe)熱線:4008890008
特(te)別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿(gao)酬(chou)。如您不希望(wang)作(zuo)品出現(xian)在本站(zhan),可(ke)聯(lian)系(xi)我們要(yao)求撤下您的作(zuo)品。
歡迎關注每(mei)日經(jing)濟新聞(wen)APP