2025-11-08 13:02:30
11月6日(ri)晚,月之(zhi)暗面旗下Kimi大(da)模型(xing)發布Kimi K2 Thinking,稱(cheng)其是(shi)“Kimi迄(qi)今能(neng)力(li)最(zui)強(qiang)的開(kai)源思考模型(xing)”,在(zai)多項(xiang)測試中(zhong)達SOTA水平,且(qie)在(zai)通用基礎能(neng)力(li)上(shang)同(tong)步(bu)升(sheng)級,目前其API已(yi)上(shang)架(jia)。但Kimi面臨市場競爭(zheng)壓力(li),大(da)廠憑借生態優勢擠壓獨立應(ying)用空間,且(qie)AI交互成(cheng)本下降。Kimi嘗(chang)試垂類合作探索商業(ye)化,能(neng)否將模型(xing)能(neng)力(li)轉化為用戶價值、構建可持續(xu)商業(ye)模式是(shi)其破局關鍵。
每經(jing)記者|李宇彤(tong) 每經(jing)編輯|黃(huang)博文
月之暗面(mian)今年以來的技術迭代(dai)還在繼(ji)續。
11月6日晚間,月之暗面旗(qi)下Kimi大模(mo)型發布(bu)了Kimi K2 Thinking,并稱(cheng)其為(wei)“Kimi迄今能力最強(qiang)的開(kai)源思(si)考模(mo)型”。
Kimi官(guan)方表示(shi),Kimi K2 Thinking是基(ji)于“模型即Agent(智能體)”理念訓練的新(xin)一(yi)代Thinking Agent,它原生掌握“邊(bian)思(si)考,邊(bian)使用工(gong)具”的能力。
從實測(ce)(ce)成績來看,Kimi K2 Thinking在(zai)“人類(lei)最(zui)后(hou)的考試”(Humanity's Last Exam)、自主(zhu)網絡(luo)瀏覽能力(BrowseComp)、復(fu)雜信息(xi)收集推(tui)理(SEAL-0)等多(duo)項基準(zhun)測(ce)(ce)試中(zhong)表現達到(dao)SOTA(當前(qian)技術水(shui)平(ping)的最(zui)前(qian)沿)水(shui)平(ping)。
自(zi)7月進(jin)(jin)入“K2”版本(ben)之后,Kimi的升級正(zheng)在提(ti)速(su)。9月5日,Kimi發(fa)布Kimi K2模型的最新版本(ben)“0905”,進(jin)(jin)一步提(ti)升其在真實編程任(ren)務(wu)中的表現。9月25日,月之暗(an)面Kimi發(fa)布全新Agent模式“OK Computer”并開啟灰度測試。
這(zhe)也(ye)是整個(ge)AI市場的一個(ge)縮影。事實上,AI市場正進入快速(su)迭代階段。據QuestMobile發(fa)布的2025年三季度AI應用行業報告,以頭(tou)部互(hu)聯網集團為例,今年1月—9月共(gong)完成182次模型(xing)(xing)發(fa)布/更新/迭代,平均每(mei)5.7天就迎來一次模型(xing)(xing)升級(ji)。
模型迭(die)代(dai)節奏(zou)持(chi)續(xu)加快,技術競爭正轉向(xiang)應用能力與(yu)推理深度的(de)實戰較量。
據Kimi官方(fang),Kimi K2 Thinking是“Kimi迄今能力(li)最強(qiang)的開源(yuan)思考模型(xing)”,這一(yi)定位源(yuan)于其在(zai)技(ji)術架(jia)構、任(ren)務執行(xing)與評測(ce)表(biao)現上的系統性突破。
作為基于“模型即Agent”理念(nian)訓練的新一代(dai)Thinking Agent,Kimi K2 Thinking實現了“邊(bian)思(si)考,邊(bian)使(shi)用(yong)工具(ju)”的原生能力融(rong)合。該模型可在無(wu)人干預的情(qing)況下(xia),自主完(wan)成(cheng)多達(da)300輪的工具(ju)調用(yong)與多輪思(si)考,可提升處理復(fu)雜問題的連續(xu)性與穩(wen)定(ding)性。
在多(duo)項關鍵能(neng)力(li)維度上,Kimi K2 Thinking均有明(ming)顯進步,其(qi)Agentic(智能(neng)代理)搜索(suo)、Agentic編程、寫作與綜合推理性能(neng)得到(dao)進一步強化。
在推(tui)理能力方面,該模型在涵蓋100多個專(zhuan)業領域的(de)“人類(lei)最后(hou)的(de)考試”(Humanity's Last Exam)中取得了(le)卓越(yue)成績。該測試允許使用搜索、Python及網絡瀏覽等(deng)工具(ju),Kimi K2 Thinking以(yi)44.9%的(de)得分達到SOTA水(shui)平。作為對比,Kimi公布的(de)同(tong)場測試中GPT-5(High)的(de)成績為41.7%。
面對信息過載的復雜搜索場景,Kimi K2 Thinking同樣表現出色。BrowseComp測試旨在評估AI在信息密集環境中的堅持性與創(chuang)造力。在該(gai)項測試(shi)中,人類平均(jun)得分僅為(wei)29.2%,而Kimi K2 Thinking以60.2%的成績刷(shua)新了SOTA紀錄(lu)。
此外(wai),該模型在編程(cheng)相關任務中(zhong)亦(yi)有穩步提升。在多語言軟件(jian)工(gong)程(cheng)基準SWE-Multilingual、SWE-bench驗證集以及Terminal終端使用等測試中(zhong),其(qi)表(biao)現有了進一步提升。
除了專(zhuan)項(xiang)能力的(de)突破,Kimi表示Kimi K2 Thinking模型在(zai)(zai)(zai)通用基礎能力上也實(shi)現同步(bu)升級。無論是(shi)(shi)在(zai)(zai)(zai)創意寫作(zuo)、學(xue)術研究,還是(shi)(shi)在(zai)(zai)(zai)回應個人與情(qing)感類問(wen)題時,模型都(dou)展現出更(geng)成(cheng)熟的(de)理解與表達能力。
為進行對比驗證,《每日經濟(ji)新聞》記者使用與測試Kimi K2時相同的提(ti)示詞,要求Kimi K2 Thinking模(mo)型以2025年北京(jing)高考作文(wen)(wen)題“數字閃耀(yao)時”為例,模(mo)擬高中生(sheng)身(shen)份完(wan)成(cheng)一篇一類(lei)記敘文(wen)(wen)。從結果看,文(wen)(wen)章結構(gou)完(wan)整(zheng)、扣題準(zhun)確,但(dan)在切題方式上(shang),該模(mo)型與K2一樣,仍(reng)存在表(biao)達略(lve)顯生(sheng)硬(ying)的情(qing)況(kuang)。

使用了長思考模式的Kimi撰寫的作文圖片來源:Kimi網頁版截圖
目前,Kimi K2 Thinking模型的API(應用程序編程接口)已在Kimi開(kai)放平臺(tai)正式(shi)上(shang)架,支持256K上(shang)下(xia)文長度,定(ding)價與Kimi K2-0905相同(tong)(tong):每百萬(wan)Token(大模型處理文本時(shi)的最小單位)輸(shu)入(ru)收費4元(yuan),輸(shu)出16元(yuan),若命中緩(huan)存,輸(shu)入(ru)費用僅為1元(yuan)。同(tong)(tong)時(shi),平臺(tai)也推(tui)出了生成速度高(gao)達100 Token/s的Turbo API,其每百萬(wan)Token輸(shu)入(ru)為8元(yuan),輸(shu)出58元(yuan),命中緩(huan)存的輸(shu)入(ru)同(tong)(tong)樣為1元(yuan)。
然而,技術優勢能否成功(gong)轉化為市(shi)場認可,是擺在Kimi K2面前(qian)的首要挑(tiao)戰。
QuestMobile數據(ju)顯示,今年(nian)三季度(du),接近60%的(de)原(yuan)生App陷入負增長,對于新入局者或中小(xiao)應用而言,獨(du)立(li)打造一款(kuan)成功的(de)原(yuan)生App的(de)窗口正在收窄。2025年(nian),國(guo)內大模(mo)型競爭已從(cong)初期的(de)“百花齊放”步入“巨頭主導”的(de)新階段(duan)。
Kimi自身的增長也面臨壓力。
根據量子位(wei)智庫(ku)10月數據,在AI助手APP新增下載榜(bang)上,Kimi與DeepSeek分別以(yi)超420萬和360萬的(de)(de)下載量位(wei)列第三、四(si)位(wei),但(dan)相較9月,兩(liang)者的(de)(de)下載量均下滑(hua)超過13%。與此(ci)同時,字節跳動的(de)(de)“豆(dou)包”以(yi)近2800萬新增下載穩居第一,騰訊(xun)“元(yuan)寶(bao)”則以(yi)超1300萬下載、環(huan)比14%的(de)(de)漲幅(fu)位(wei)列第二。大廠憑借其(qi)生(sheng)態優勢,持續(xu)擠壓著獨立應用的(de)(de)生(sheng)存空間。
并且,更多跨(kua)界玩家正依托自身(shen)業(ye)務場(chang)景加速入局。11月3日,美團LongCat(龍(long)貓)團隊(dui)宣布推出(chu)全新(xin)開源大模型LongCat-Flash-Omni,這也是美團在兩個月內第(di)四次(ci)發布新(xin)模型。
另一個(ge)行業信號(hao)是AI交互(hu)成本的下降。
QuestMobile在報告中(zhong)表示,人均單次Token消耗的下降(jiang)也標志著AI行業(ye)(ye)進入了一(yi)個(ge)以“效率提升、成本(ben)控制、價值驅(qu)動”為特征的新階段。這是行業(ye)(ye)走向成熟和商業(ye)(ye)化的關鍵信號。
在此背景下,今年(nian)以(yi)來的(de)Kimi正嘗試通過垂(chui)類(lei)合作探(tan)索商(shang)業(ye)(ye)化路徑。今年(nian)“雙(shuang)11”期(qi)間(jian),《每日經濟新聞》記者測(ce)試發(fa)現(xian)Kimi更新了“導(dao)購”功(gong)能,可根據用戶需(xu)求推薦(jian)商(shang)品并附(fu)帶淘寶或京東鏈接,不過商(shang)品多來自代(dai)理店(dian)鋪(pu),尚未與官方旗艦店(dian)打通。相較于字(zi)節“豆包+抖(dou)音”、阿里“通義+電商(shang)”的(de)生(sheng)態(tai)閉環,Kimi暫未形成同等強度的(de)業(ye)(ye)務綁定。
數據(ju)表明,具(ju)備清晰場(chang)景的垂直類AI應用(yong)仍具(ju)有增(zeng)長潛(qian)力。據(ju)QuestMobile,字節跳動旗下即夢AI、豆包(bao)愛學及(ji)螞蟻集團旗下AQ健康管家等垂類應用(yong)三季(ji)度月活躍用(yong)戶規(gui)模復合增(zeng)長率分(fen)別達12.1%、15.7%和83.4%。
對Kimi而言,差異化的(de)核心(xin)在(zai)于將(jiang)模型能(neng)力(li)轉(zhuan)化為用戶可(ke)感知的(de)價(jia)值(zhi)。其能(neng)否(fou)在(zai)Agent搜(sou)索、編程助手、深度(du)研(yan)究等場(chang)景建立起(qi)不可(ke)替代(dai)性,將(jiang)決定技(ji)術升級的(de)市(shi)場(chang)成效(xiao)。
Kimi K2 Thinking展現出(chu)的(de)(de)技術縱深,為月(yue)之暗面在(zai)“思考型Agent”這一差(cha)異化路徑(jing)上贏得了重要籌(chou)碼。然而,在(zai)白熱化的(de)(de)大模型競爭中,技術領(ling)先性只是入場(chang)(chang)券,能否將“長思考”“強推理”的(de)(de)模型能力,轉化為用戶高頻依賴的(de)(de)應用場(chang)(chang)景,并構建起可持續的(de)(de)商業模式,才(cai)是真(zhen)正的(de)(de)破局關鍵。
封面圖(tu)片(pian)來(lai)源:圖(tu)片(pian)來(lai)源:視覺中國-VCG211478193393
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社(she)授權,嚴禁轉(zhuan)載或鏡(jing)像,違者(zhe)必究(jiu)。
讀者熱線(xian):4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如(ru)您不希望作品出現在本(ben)站,可(ke)聯(lian)系我們(men)要求撤下(xia)您的作品。
歡迎關注每日經濟新(xin)聞APP