要聞

大模型熱潮第三年，“AI春晚”又換主角為什么是具身智能？

每日經(jing)濟新聞 2025-06-06 21:19:20

6月6日(ri)，第七屆北京智源大(da)會(hui)(hui)開(kai)幕，本次(ci)大(da)會(hui)(hui)關(guan)鍵詞(ci)從“大(da)語言(yan)模型(xing)”躍升為(wei)“具身(shen)智能(neng)”與“機(ji)(ji)器人(ren)2.0”。宇樹科技(ji)(ji)CEO王興興等成為(wei)大(da)會(hui)(hui)焦點。面壁(bi)智能(neng)CEO李大(da)海表示，大(da)模型(xing)技(ji)(ji)術(shu)成熟推動產(chan)業(ye)關(guan)注重心(xin)轉移(yi)。智源研究(jiu)院院長王仲遠稱，人(ren)工智能(neng)正加速從數(shu)字世界(jie)走向物(wu)理世界(jie)。與會(hui)(hui)者還就機(ji)(ji)器人(ren)賽(sai)事價值(zhi)、具身(shen)智能(neng)產(chan)業(ye)化關(guan)鍵、機(ji)(ji)器人(ren)形態及(ji)VLA模型(xing)等議題(ti)展開(kai)探討。

每(mei)經(jing)記者｜可楊每(mei)經(jing)編輯(ji)｜陳俊杰 

早(zao)早(zao)就(jiu)沒了(le)位(wei)置，人墻圍了(le)一層又(you)一層，宇樹機(ji)器人、天工機(ji)器人一登場，就(jiu)調動了(le)全場氣氛。

6月6日，由北京智(zhi)源(yuan)人工智(zhi)能研究院(yuan)主辦的(de)“AI春晚”——第七屆北京智(zhi)源(yuan)大(da)會（以(yi)下簡(jian)稱(cheng)智(zhi)源(yuan)大(da)會）正式開(kai)幕。

大模型(xing)熱潮(chao)進入第三年(nian)，智源大會(hui)的(de)關鍵詞已(yi)經從“大語言(yan)模型(xing)”躍升為“具身(shen)智能”與(yu)“機器人2.0”。

作為產業風向(xiang)標(biao)，在(zai)智源大會(hui)上，OpenAI創(chuang)始(shi)人(ren)山姆·奧特曼以及“深度學習之(zhi)父”辛(xin)頓曾發表演講；月(yue)之(zhi)暗面創(chuang)始(shi)人(ren)楊植麟曾經歷人(ren)墻(qiang)圍堵，熱(re)度遠超如(ru)今首(shou)(shou)個沖(chong)向(xiang)IPO的智譜(pu)AI；而(er)今，大會(hui)上的“明星”是(shi)宇樹科(ke)技(ji)創(chuang)始(shi)人(ren)、CEO（首(shou)(shou)席執(zhi)行官）王興(xing)興(xing)。

變化的(de)背后，AI（人工智能）正(zheng)加速邁(mai)入“干實事”的(de)新(xin)階段：從機(ji)器人表演(yan)走(zou)向實際應用(yong)，從模型訓練走(zou)向產業閉環。物理(li)世界(jie)的(de)復雜性、數據采(cai)集的(de)現實需求(qiu)、人與機(ji)器的(de)自(zi)然交(jiao)互，正(zheng)在共同(tong)推動具身智能成為AI發展的(de)下一個技術高地。

具身智能會客廳(ting)對話(hua)現場(chang) 主辦者供圖

“AI春晚”，主角又換了

結束(shu)開幕式上(shang)的(de)“智(zhi)源具身智(zhi)能會客廳”圓桌對話后，宇樹科技CEO王(wang)興興在現場安(an)保引(yin)導下離場，想(xiang)要上(shang)前與其交(jiao)流的(de)觀眾被隔(ge)絕在人墻(qiang)外。

這或許是吸取了去(qu)年的“教訓”，彼時的明星公司(si)是月之暗面，楊(yang)植(zhi)麟在(zai)下場后幾度(du)被(bei)人墻圍住無法(fa)脫身。

如果以2022年末ChatGPT的(de)發布作為節點，三屆智源大會，不僅見證了大模型時代AI技術的(de)跨(kua)越(yue)式發展，也折射出人工智能產(chan)業關注重心的(de)變動軌(gui)跡(ji)。

2023年，AI領域風(feng)頭無兩的(de)是(shi)(shi)OpenAI所引領的(de)生成式(shi)大(da)語(yu)言(yan)模型熱潮，當(dang)年大(da)會的(de)高(gao)光時刻是(shi)(shi)OpenAI的(de)代(dai)表人(ren)物山姆·奧特(te)曼（Sam Altman）與“深度(du)學習(xi)之父”辛(xin)頓(dun)（Geoffrey Hinton）的(de)亮(liang)相。

2024年，以月之(zhi)暗面(mian)(mian)、百度、智(zhi)譜AI為代表(biao)的國產(chan)大(da)模(mo)型廠(chang)商迅(xun)速崛起，在語言模(mo)型與多模(mo)態模(mo)型領域競逐成(cheng)“主角”，開(kai)發出Kimi的月之(zhi)暗面(mian)(mian)備受追(zhui)捧。

2025年，具身智能(neng)集中搶鏡(jing)，機器人、跨模(mo)態(tai)系統、物理智能(neng)等成為主論壇的重要議題。變化背后(hou)，是技(ji)術(shu)路線的演進和應(ying)用價值的再認識。

面(mian)壁智能CEO兼聯合(he)(he)創始(shi)人李大(da)海在接(jie)受《每(mei)日經濟新聞》記者采訪時(shi)表示，技(ji)術的(de)(de)發(fa)展(zhan)是非(fei)線性的(de)(de)。大(da)模型本質上是一項基礎(chu)性技(ji)術，未來(lai)一定是非(fei)常重要的(de)(de)底層(ceng)基礎(chu)設施。隨(sui)著這項技(ji)術逐步成熟，產(chan)業關注的(de)(de)重心自然(ran)也開始(shi)從(cong)底層(ceng)模型向其之上的(de)(de)具體應用轉移(yi)，這種關注點的(de)(de)遷移(yi)是合(he)(he)理且(qie)必然(ran)的(de)(de)。

同(tong)時，李大(da)(da)海認(ren)為(wei)，大(da)(da)模(mo)型(xing)“奇點”正(zheng)在到來，其身(shen)處其中有非常(chang)強烈的(de)感受，當前(qian)大(da)(da)模(mo)型(xing)在訓練(lian)過(guo)程中，已經能夠利用自身(shen)的(de)特性，反(fan)哺訓練(lian)過(guo)程，實現(xian)大(da)(da)模(mo)型(xing)訓練(lian)的(de)加速，形成(cheng)“用大(da)(da)模(mo)型(xing)訓練(lian)大(da)(da)模(mo)型(xing)”的(de)良(liang)性循(xun)環。“整(zheng)個技(ji)術的(de)發展在加速，（所以）才有外面(mian)能看到的(de)整(zheng)個行業的(de)變化越來越大(da)(da)（的(de)情況）。”

“人工智能正(zheng)加速從數字世界走向(xiang)物(wu)理世界，這是我們對整個大的技術發展趨(qu)勢(shi)的判斷(duan)。”智源研究院院長(chang)王(wang)仲遠受(shou)訪時(shi)表(biao)示。

從“秀肌肉”到“干實事”

在2024年(nian)的(de)(de)智(zhi)(zhi)源大會開幕式上，月之(zhi)暗面(mian)、百川(chuan)智(zhi)(zhi)能(neng)、智(zhi)(zhi)譜AI與(yu)面(mian)壁智(zhi)(zhi)能(neng)四家國產大模(mo)型公司(si)曾罕見同臺，展開通(tong)往通(tong)用人(ren)工(gong)智(zhi)(zhi)能(neng)（AGI）之(zhi)路的(de)(de)對話。而2025年(nian)，圓桌環(huan)節的(de)(de)對話主角，從(cong)大模(mo)型轉向了具身智(zhi)(zhi)能(neng)。

開年以(yi)來(lai)(lai)，具身智能(neng)成為人工智能(neng)領域最熱(re)的(de)(de)(de)關(guan)鍵(jian)詞，伴隨而來(lai)(lai)的(de)(de)(de)，是形態各異的(de)(de)(de)機器人頻繁亮相各種公眾賽(sai)事：從(cong)春節晚會(hui)上的(de)(de)(de)舞蹈(dao)表演，到(dao)格斗競(jing)技場上的(de)(de)(de)人形對抗賽(sai)；從(cong)物(wu)流(liu)分揀的(de)(de)(de)真實場景模(mo)擬，到(dao)即將在北(bei)京舉辦(ban)的(de)(de)(de)“世界人形機器人運(yun)動會(hui)”。

眼(yan)下(xia)風靡的(de)機器(qi)人(ren)比賽，是驗證技術的(de)試驗場，還是秀(xiu)肌肉的(de)“秀(xiu)場”？

對此，王興(xing)興(xing)認為，當前機(ji)(ji)器(qi)(qi)人(ren)賽(sai)事的價值(zhi)在于讓大眾“看到(dao)機(ji)(ji)器(qi)(qi)人(ren)已經(jing)發展(zhan)到(dao)什么階段了”。他坦(tan)言，盡管人(ren)形(xing)機(ji)(ji)器(qi)(qi)人(ren)還不能(neng)(neng)“真正(zheng)進入家庭干活(huo)”，但通(tong)過格(ge)斗、跳(tiao)舞等全身動(dong)作訓練，一(yi)方(fang)面可以展(zhan)示當前AI控制系(xi)統的水平，另一(yi)方(fang)面，跳(tiao)舞和(he)格(ge)斗，其(qi)實(shi)是機(ji)(ji)器(qi)(qi)人(ren)全身動(dong)作的一(yi)部分。“我們(men)的目(mu)標一(yi)直是希望通(tong)過AI技術讓機(ji)(ji)器(qi)(qi)人(ren)能(neng)(neng)做各種全身動(dong)作，來實(shi)現終(zhong)極目(mu)標，去真正(zheng)解放人(ren)類生(sheng)產力。”

王興興進一步(bu)解釋道，這(zhe)種展示不僅有助于訓練和(he)驗(yan)證模型能力，也開始體現出一定的商業(ye)價值。今年(nian)上(shang)半年(nian)，人形機器人租賃市場(chang)就比較(jiao)火爆，王興興認為，這(zhe)也是一種產(chan)業(ye)價值的體現。

北(bei)京人(ren)形機器(qi)人(ren)創(chuang)新中(zhong)心總經理熊友軍也表示，接(jie)下來(lai)的(de)“世界人(ren)形機器(qi)人(ren)運(yun)動會”，不僅包括格斗等競技類項(xiang)目(mu)，還(huan)將引入短跑、接(jie)力、足球、舞(wu)蹈等來(lai)自(zi)人(ren)類場景的(de)形式。同(tong)時，賽事中(zhong)還(huan)包含多個真(zhen)實生活和工(gong)業場景，如工(gong)廠的(de)物流搬(ban)運(yun)、醫院(yuan)的(de)醫藥分揀、酒店的(de)服(fu)務應(ying)用等。

熊友(you)軍表示，這些比賽場景(jing)來(lai)自具(ju)體的企(qi)業(ye)(ye)提出的真(zhen)實場景(jing)需求，和(he)機器人(ren)即將走入現實的生活密切相關(guan)。“這是一個很好的訓(xun)練場，對提升機器的技術有很大幫助，也是潛在客(ke)戶了解和(he)跟(gen)機器人(ren)企(qi)業(ye)(ye)溝通(tong)的橋梁(liang)。”

盡管表演與賽事火熱，但(dan)具(ju)身智能(neng)(neng)(neng)(neng)產業化真正的(de)關鍵仍是(shi)“干活”能(neng)(neng)(neng)(neng)力的(de)打造。對(dui)此，銀河通用創始(shi)人王鶴指(zhi)出，當前行業已經(jing)有許多炫酷技(ji)能(neng)(neng)(neng)(neng)，但(dan)需要反思的(de)是(shi)，如(ru)果(guo)在(zai)真實(shi)環境下無法保證成功率，這些技(ji)能(neng)(neng)(neng)(neng)的(de)產業價值(zhi)就非常有限。

王鶴介紹，銀(yin)河(he)通用(yong)與(yu)智源研究院的(de)聯合(he)團隊正在重點攻關“通用(yong)移(yi)動(dong)抓取”任務(wu)，即通過導航與(yu)抓取組(zu)合(he)，讓機(ji)器人在貨架等實際工作場(chang)(chang)景(jing)中完成復(fu)雜動(dong)作。王鶴透露，銀(yin)河(he)通用(yong)的(de)機(ji)器人已經(jing)在北(bei)京(jing)值守7家24小(xiao)時無人藥店，由人形機(ji)器人完成取藥和對(dui)接騎手的(de)任務(wu)。他進(jin)(jin)一(yi)步強調，希望賽事(shi)(shi)和應用(yong)場(chang)(chang)景(jing)能進(jin)(jin)一(yi)步打通，用(yong)賽事(shi)(shi)去引(yin)領有價值的(de)、可落地(di)的(de)技能。

人(ren)形機器人(ren)現(xian)場展示格斗主辦方供圖(tu)

人形還是非人形？

在AI模型(xing)“上天(tian)入地”的浪潮中，被稱為(wei)“AI+機器人”終極(ji)形態(tai)的具身智能，正成為(wei)產業界和學(xue)術界同時瞄準的下(xia)一個技術制高點。

“其(qi)實(shi)我一直(zhi)不(bu)堅持一定要做（成）人(ren)形（機(ji)器(qi)(qi)人(ren)）。”在談到人(ren)形機(ji)器(qi)(qi)人(ren)是否是具(ju)身(shen)智能(neng)唯一形態時，王興(xing)興(xing)表示，從工程實(shi)踐角度(du)出發，宇樹(shu)科技早期做機(ji)器(qi)(qi)狗，轉向人(ren)形機(ji)器(qi)(qi)人(ren)屬(shu)于(yu)“順理成章(zhang)”。在一些(xie)場(chang)景中，用輪式底盤替代腿部同樣(yang)非(fei)常實(shi)用。

“但為(wei)什么(me)大(da)家現在喜歡(huan)用(yong)人形，尤其上(shang)半(ban)身(shen)保留人的樣子？核(he)心是因為(wei)現在AI大(da)部分還是依賴人來做(zuo)數據(ju)采(cai)集(ji)。”王興(xing)興(xing)解釋(shi)說，人形機器(qi)人上(shang)半(ban)身(shen)動作和人類(lei)一致，可以(yi)讓AI采(cai)集(ji)數據(ju)、訓練模型都更加方便(bian)，“包括我們(men)機器(qi)人跳舞或者做(zuo)一些格斗(dou)和別的比賽，說實在的，如(ru)果你做(zuo)成別的樣子就沒辦(ban)法做(zuo)這個事情”。

不過王興(xing)興(xing)也明(ming)確指出，未來(lai)隨(sui)著AGI的誕生，機器人(ren)的形(xing)(xing)態將會(hui)“千奇百(bai)怪”，比(bi)現在(zai)要多(duo)非常多(duo)倍，甚至多(duo)100倍都(dou)有(you)可(ke)能。但在(zai)當前(qian)階段(duan)，人(ren)形(xing)(xing)形(xing)(xing)態仍在(zai)數據采集、模型訓(xun)練(lian)和落地效率上(shang)具備“實用主(zhu)義”的優勢。

與王興興偏向技術(shu)現實主義的(de)觀點(dian)不(bu)同，熊友軍更(geng)看重人(ren)形在未來市(shi)場(chang)中的(de)地(di)位。他(ta)認為，雖(sui)然從技術(shu)上講(jiang)，具身智(zhi)能(neng)載(zai)體可以多種多樣，但“人(ren)形機器人(ren)是具身智(zhi)能(neng)發展、研究的(de)最佳(jia)載(zai)體”。他(ta)指出，未來具身智(zhi)能(neng)的(de)最大應用(yong)場(chang)景不(bu)是工業(ye)，而是家庭(ting)和商用(yong)服務(wu)，“今天工廠(chang)場(chang)景只是‘開胃(wei)小(xiao)菜’”。

熊(xiong)友軍(jun)認(ren)為，人(ren)(ren)(ren)(ren)形(xing)(xing)機(ji)器(qi)(qi)(qi)人(ren)(ren)(ren)(ren)更容易被人(ren)(ren)(ren)(ren)接受。它們會成(cheng)(cheng)為生活中的(de)(de)(de)伙(huo)伴、朋友，甚(shen)至像(xiang)現在很多年(nian)輕(qing)人(ren)(ren)(ren)(ren)所(suo)說(shuo)的(de)(de)(de)——可(ke)能(neng)(neng)是(shi)愛人(ren)(ren)(ren)(ren)。這種人(ren)(ren)(ren)(ren)機(ji)交互的(de)(de)(de)自然程度(du)是(shi)其他形(xing)(xing)態(tai)難(nan)以比擬的(de)(de)(de)。他還補(bu)充道(dao)，人(ren)(ren)(ren)(ren)形(xing)(xing)機(ji)器(qi)(qi)(qi)人(ren)(ren)(ren)(ren)適配人(ren)(ren)(ren)(ren)類(lei)環境的(de)(de)(de)成(cheng)(cheng)本更低，如果(guo)不(bu)是(shi)人(ren)(ren)(ren)(ren)形(xing)(xing)，就可(ke)能(neng)(neng)需要為機(ji)器(qi)(qi)(qi)人(ren)(ren)(ren)(ren)改造環境。這在實際(ji)部署中會帶來(lai)額外成(cheng)(cheng)本。熊(xiong)友軍(jun)表(biao)示，長(chang)期來(lai)看，人(ren)(ren)(ren)(ren)形(xing)(xing)仍是(shi)具身(shen)智能(neng)(neng)最具發展(zhan)潛力的(de)(de)(de)形(xing)(xing)態(tai)。

展區機器狗主辦方供圖

在形態(tai)問題的(de)(de)背后(hou)，具(ju)身智能(neng)的(de)(de)“智能(neng)”來源何處，是另(ling)一個爭議核心。自動(dong)駕(jia)駛中(zhong)，VLA（視覺語言動(dong)作模型(xing)）已成為主(zhu)流解(jie)決方案，但面(mian)對具(ju)身智能(neng)中(zhong)復雜度(du)更高的(de)(de)任務環境，VLA能(neng)否“泛化”仍待驗證。

王鶴認為(wei)，自(zi)動(dong)駕駛的(de)(de)經(jing)驗已初步證明了(le)“端到端”方案(an)有更好的(de)(de)擴展性(xing)，不依賴無窮(qiong)無盡的(de)(de)規(gui)則，而(er)是(shi)通(tong)過數據去驅動(dong)模(mo)型(xing)。他表示，VLA的(de)(de)意(yi)義在于，通(tong)過視覺觀(guan)測和自(zi)然語(yu)言指(zhi)令，直接輸出動(dong)作決策(ce)，中間不再需(xu)要其他環節。這種路徑(jing)可(ke)以讓模(mo)型(xing)更充分地(di)吸(xi)收數據背后的(de)(de)知識，發揮出最(zui)大的(de)(de)性(xing)能，而(er)不受制于模(mo)塊化方案(an)。

不(bu)過，王鶴(he)也直(zhi)言，目前VLA是(shi)具(ju)身智能(neng)研(yan)究的(de)熱點(dian)，只(zhi)是(shi)針對VLA究竟要突破什么，行業同樣有不(bu)同觀(guan)點(dian)。比如，有人(ren)希望把(ba)人(ren)類能(neng)做的(de)所(suo)(suo)有事情都整合(he)到VLA中，形成一(yi)個(ge)基座模型(xing)。王鶴(he)認(ren)為這太著急了(le)。他(ta)指(zhi)出，人(ren)類認(ren)知不(bu)是(shi)只(zhi)有視(shi)覺(jue)和(he)語言，還包(bao)括(kuo)力(li)覺(jue)、觸覺(jue)、嗅覺(jue)、味(wei)覺(jue)、溫覺(jue)、聽覺(jue)??“所(suo)(suo)以(yi)VLA只(zhi)能(neng)是(shi)一(yi)個(ge)起(qi)點(dian)，要想真正(zheng)做到人(ren)類級別的(de)具(ju)身智能(neng)，只(zhi)能(neng)不(bu)斷融合(he)新的(de)模態。”

王(wang)鶴認為(wei)，目前(qian)VLA最適合的(de)任務(wu)是(shi)(shi)移動(dong)、抓取和放置。這(zhe)些以視覺為(wei)主，加上末(mo)端的(de)觸覺或力(li)覺傳感器即可執行，這(zhe)類任務(wu)在工業和服務(wu)場景中(zhong)已(yi)經足夠(gou)廣泛，如果能(neng)先將(jiang)這(zhe)類VLA模型做扎實，“將(jiang)會是(shi)(shi)具身智能(neng)真正第(di)一次高潮的(de)到(dao)來”。

穹(qiong)徹智能(neng)聯合(he)創始?、上(shang)海交通(tong)?學教授、上(shang)海創智學院副院?盧(lu)策吾則(ze)補充，VLA模(mo)型“確(que)實集合(he)了(le)機(ji)器(qi)人(ren)(ren)幾件要(yao)(yao)干的(de)(de)事”——Vision（視(shi)覺）理解世(shi)界(jie)，Language（語(yu)言）與(yu)人(ren)(ren)類溝通(tong)，Action（動作(zuo)）改變世(shi)界(jie)。但他也指出VLA當前(qian)存在(zai)很(hen)大的(de)(de)限制。具身智能(neng)面對(dui)的(de)(de)物理世(shi)界(jie)比無人(ren)(ren)駕駛復雜(za)得多，無人(ren)(ren)車只需在(zai)兩個維(wei)度做決策，且場景(jing)相對(dui)固定，而通(tong)用(yong)具身智能(neng)的(de)(de)場景(jing)是開(kai)放且有(you)接觸的(de)(de)，空間更大、不(bu)(bu)(bu)確(que)定性更多。因此，要(yao)(yao)做到通(tong)用(yong)，就要(yao)(yao)壓縮(suo)它的(de)(de)“不(bu)(bu)(bu)確(que)定性”，并不(bu)(bu)(bu)停地在(zai)兼(jian)容框架中增加更多額外信(xin)息(xi)，在(zai)端到端的(de)(de)模(mo)型里壓縮(suo)它的(de)(de)空間。

此外，他(ta)強調對(dui)物(wu)理(li)(li)世(shi)界(jie)理(li)(li)解(jie)能(neng)力(li)的(de)增強也是(shi)“壓縮任務空(kong)間”的(de)關(guan)鍵。穹(qiong)徹團隊(dui)在其第(di)二(er)代“機器(qi)人大腦”中，加入了“數(shu)字基因”“仿真(zhen)數(shu)據資產(chan)(chan)”等模塊，希(xi)望通(tong)過仿真(zhen)產(chan)(chan)生(sheng)大量數(shu)據，減少真(zhen)實(shi)世(shi)界(jie)中訓練對(dui)樣本(ben)量的(de)依賴。盧策吾認(ren)為，找(zhao)到更聰明的(de)方式理(li)(li)解(jie)世(shi)界(jie)，把(ba)它(ta)們融合到VLA里，才(cai)可能(neng)真(zhen)正推動通(tong)用智能(neng)的(de)拐(guai)點出現。

從人形機器(qi)人的路徑分歧，到VLA模型的能(neng)力邊界(jie)，在具身智能(neng)這條路上，數(shu)據仍是燃(ran)料，形態(tai)(tai)仍有博弈。但最終(zhong)，理解世界(jie)并與(yu)之(zhi)交(jiao)互(hu)的能(neng)力，或許才是決定智能(neng)生命形態(tai)(tai)的關鍵點。

如需轉載請與《每日經濟新聞》報社聯系。
未經(jing)《每日經(jing)濟新聞》報社授權，嚴(yan)禁轉(zhuan)載或鏡像，違者必(bi)究。

讀(du)者(zhe)熱線：4008890008

特(te)別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿(gao)酬(chou)。如您不希望(wang)作(zuo)品出現(xian)在本站(zhan)，可(ke)聯(lian)系(xi)我們要(yao)求撤下您的作(zuo)品。