輪播

原生掌握“邊思考，邊用工具” ，Kimi “史上最強”開源思考模型能否破局AI紅海？

2025-11-08 13:02:30

11月6日(ri)晚，月之(zhi)暗面旗下Kimi大(da)模型(xing)發布Kimi K2 Thinking，稱(cheng)其是(shi)“Kimi迄(qi)今能(neng)力(li)最(zui)強(qiang)的開(kai)源思考模型(xing)”，在(zai)多項(xiang)測試中(zhong)達SOTA水平，且(qie)在(zai)通用基礎能(neng)力(li)上(shang)同(tong)步(bu)升(sheng)級，目前其API已(yi)上(shang)架(jia)。但Kimi面臨市場競爭(zheng)壓力(li)，大(da)廠憑借生態優勢擠壓獨立應(ying)用空間，且(qie)AI交互成(cheng)本下降。Kimi嘗(chang)試垂類合作探索商業(ye)化，能(neng)否將模型(xing)能(neng)力(li)轉化為用戶價值、構建可持續(xu)商業(ye)模式是(shi)其破局關鍵。

每經(jing)記者｜李宇彤(tong)   每經(jing)編輯｜黃(huang)博文

月之暗面(mian)今年以來的技術迭代(dai)還在繼(ji)續。

11月6日晚間，月之暗面旗(qi)下Kimi大模(mo)型發布(bu)了Kimi K2 Thinking，并稱(cheng)其為(wei)“Kimi迄今能力最強(qiang)的開(kai)源思(si)考模(mo)型”。

Kimi官(guan)方表示(shi)，Kimi K2 Thinking是基(ji)于“模型即Agent（智能體）”理念訓練的新(xin)一(yi)代Thinking Agent，它原生掌握“邊(bian)思(si)考，邊(bian)使用工(gong)具”的能力。

從實測(ce)(ce)成績來看，Kimi K2 Thinking在(zai)“人類(lei)最(zui)后(hou)的考試”（Humanity's Last Exam）、自主(zhu)網絡(luo)瀏覽能力（BrowseComp）、復(fu)雜信息(xi)收集推(tui)理（SEAL-0）等多(duo)項基準(zhun)測(ce)(ce)試中(zhong)表現達到(dao)SOTA（當前(qian)技術水(shui)平(ping)的最(zui)前(qian)沿）水(shui)平(ping)。

自(zi)7月進(jin)(jin)入“K2”版本(ben)之后，Kimi的升級正(zheng)在提(ti)速(su)。9月5日，Kimi發(fa)布Kimi K2模型的最新版本(ben)“0905”，進(jin)(jin)一步提(ti)升其在真實編程任(ren)務(wu)中的表現。9月25日，月之暗(an)面Kimi發(fa)布全新Agent模式“OK Computer”并開啟灰度測試。

這(zhe)也(ye)是整個(ge)AI市場的一個(ge)縮影。事實上，AI市場正進入快速(su)迭代階段。據QuestMobile發(fa)布的2025年三季度AI應用行業報告，以頭(tou)部互(hu)聯網集團為例，今年1月—9月共(gong)完成182次模型(xing)(xing)發(fa)布/更新/迭代，平均每(mei)5.7天就迎來一次模型(xing)(xing)升級(ji)。

模型迭(die)代(dai)節奏(zou)持(chi)續(xu)加快，技術競爭正轉向(xiang)應用能力與(yu)推理深度的(de)實戰較量。

在“人類最后的考試”中超越GPT-5（High）

據Kimi官方(fang)，Kimi K2 Thinking是“Kimi迄今能力(li)最強(qiang)的開源(yuan)思考模型(xing)”，這一(yi)定位源(yuan)于其在(zai)技(ji)術架(jia)構、任(ren)務執行(xing)與評測(ce)表(biao)現上的系統性突破。

作為基于“模型即Agent”理念(nian)訓練的新一代(dai)Thinking Agent，Kimi K2 Thinking實現了“邊(bian)思(si)考，邊(bian)使(shi)用(yong)工具(ju)”的原生能力融(rong)合。該模型可在無(wu)人干預的情(qing)況下(xia)，自主完(wan)成(cheng)多達(da)300輪的工具(ju)調用(yong)與多輪思(si)考，可提升處理復(fu)雜問題的連續(xu)性與穩(wen)定(ding)性。

在多(duo)項關鍵能(neng)力(li)維度上，Kimi K2 Thinking均有明(ming)顯進步，其(qi)Agentic（智能(neng)代理）搜索(suo)、Agentic編程、寫作與綜合推理性能(neng)得到(dao)進一步強化。

在推(tui)理能力方面，該模型在涵蓋100多個專(zhuan)業領域的(de)“人類(lei)最后(hou)的(de)考試”（Humanity's Last Exam）中取得了(le)卓越(yue)成績。該測試允許使用搜索、Python及網絡瀏覽等(deng)工具(ju)，Kimi K2 Thinking以(yi)44.9%的(de)得分達到SOTA水(shui)平。作為對比，Kimi公布的(de)同(tong)場測試中GPT-5（High）的(de)成績為41.7%。

面對信息過載的復雜搜索場景，Kimi K2 Thinking同樣表現出色。BrowseComp測試旨在評估AI在信息密集環境中的堅持性與創(chuang)造力。在該(gai)項測試(shi)中，人類平均(jun)得分僅為(wei)29.2%，而Kimi K2 Thinking以60.2%的成績刷(shua)新了SOTA紀錄(lu)。

此外(wai)，該模型在編程(cheng)相關任務中(zhong)亦(yi)有穩步提升。在多語言軟件(jian)工(gong)程(cheng)基準SWE-Multilingual、SWE-bench驗證集以及Terminal終端使用等測試中(zhong)，其(qi)表(biao)現有了進一步提升。

除了專(zhuan)項(xiang)能力的(de)突破，Kimi表示Kimi K2 Thinking模型在(zai)(zai)(zai)通用基礎能力上也實(shi)現同步(bu)升級。無論是(shi)(shi)在(zai)(zai)(zai)創意寫作(zuo)、學(xue)術研究，還是(shi)(shi)在(zai)(zai)(zai)回應個人與情(qing)感類問(wen)題時，模型都(dou)展現出更(geng)成(cheng)熟的(de)理解與表達能力。

為進行對比驗證，《每日經濟(ji)新聞》記者使用與測試Kimi K2時相同的提(ti)示詞，要求Kimi K2 Thinking模(mo)型以2025年北京(jing)高考作文(wen)(wen)題“數字閃耀(yao)時”為例，模(mo)擬高中生(sheng)身(shen)份完(wan)成(cheng)一篇一類(lei)記敘文(wen)(wen)。從結果看，文(wen)(wen)章結構(gou)完(wan)整(zheng)、扣題準(zhun)確，但(dan)在切題方式上(shang)，該模(mo)型與K2一樣，仍(reng)存在表(biao)達略(lve)顯生(sheng)硬(ying)的情(qing)況(kuang)。

使用了長思考模式的Kimi撰寫的作文圖片來源：Kimi網頁版截圖

目前，Kimi K2 Thinking模型的API（應用程序編程接口）已在Kimi開(kai)放平臺(tai)正式(shi)上(shang)架，支持256K上(shang)下(xia)文長度，定(ding)價與Kimi K2-0905相同(tong)(tong)：每百萬(wan)Token（大模型處理文本時(shi)的最小單位）輸(shu)入(ru)收費4元(yuan)，輸(shu)出16元(yuan)，若命中緩(huan)存，輸(shu)入(ru)費用僅為1元(yuan)。同(tong)(tong)時(shi)，平臺(tai)也推(tui)出了生成速度高(gao)達100 Token/s的Turbo API，其每百萬(wan)Token輸(shu)入(ru)為8元(yuan)，輸(shu)出58元(yuan)，命中緩(huan)存的輸(shu)入(ru)同(tong)(tong)樣為1元(yuan)。

Kimi能否破局(ju)“紅海(hai)”競爭(zheng)

然而，技術優勢能否成功(gong)轉化為市(shi)場認可，是擺在Kimi K2面前(qian)的首要挑(tiao)戰。

QuestMobile數據(ju)顯示，今年(nian)三季度(du)，接近60%的(de)原(yuan)生App陷入負增長，對于新入局者或中小(xiao)應用而言，獨(du)立(li)打造一款(kuan)成功的(de)原(yuan)生App的(de)窗口正在收窄。2025年(nian)，國(guo)內大模(mo)型競爭已從(cong)初期的(de)“百花齊放”步入“巨頭主導”的(de)新階段(duan)。

Kimi自身的增長也面臨壓力。

根據量子位(wei)智庫(ku)10月數據，在AI助手APP新增下載榜(bang)上，Kimi與DeepSeek分別以(yi)超420萬和360萬的(de)(de)下載量位(wei)列第三、四(si)位(wei)，但(dan)相較9月，兩(liang)者的(de)(de)下載量均下滑(hua)超過13%。與此(ci)同時，字節跳動的(de)(de)“豆(dou)包”以(yi)近2800萬新增下載穩居第一，騰訊(xun)“元(yuan)寶(bao)”則以(yi)超1300萬下載、環(huan)比14%的(de)(de)漲幅(fu)位(wei)列第二。大廠憑借其(qi)生(sheng)態優勢，持續(xu)擠壓著獨立應用的(de)(de)生(sheng)存空間。

并且，更多跨(kua)界玩家正依托自身(shen)業(ye)務場(chang)景加速入局。11月3日，美團LongCat（龍(long)貓）團隊(dui)宣布推出(chu)全新(xin)開源大模型LongCat-Flash-Omni，這也是美團在兩個月內第(di)四次(ci)發布新(xin)模型。

另一個(ge)行業信號(hao)是AI交互(hu)成本的下降。

QuestMobile在報告中(zhong)表示，人均單次Token消耗的下降(jiang)也標志著AI行業(ye)(ye)進入了一(yi)個(ge)以“效率提升、成本(ben)控制、價值驅(qu)動”為特征的新階段。這是行業(ye)(ye)走向成熟和商業(ye)(ye)化的關鍵信號。

在此背景下，今年(nian)以(yi)來的(de)Kimi正嘗試通過垂(chui)類(lei)合作探(tan)索商(shang)業(ye)(ye)化路徑。今年(nian)“雙(shuang)11”期(qi)間(jian)，《每日經濟新聞》記者測(ce)試發(fa)現(xian)Kimi更新了“導(dao)購”功(gong)能，可根據用戶需(xu)求推薦(jian)商(shang)品并附(fu)帶淘寶或京東鏈接，不過商(shang)品多來自代(dai)理店(dian)鋪(pu)，尚未與官方旗艦店(dian)打通。相較于字(zi)節“豆包+抖(dou)音”、阿里“通義+電商(shang)”的(de)生(sheng)態(tai)閉環，Kimi暫未形成同等強度的(de)業(ye)(ye)務綁定。

數據(ju)表明，具(ju)備清晰場(chang)景的垂直類AI應用(yong)仍具(ju)有增(zeng)長潛(qian)力。據(ju)QuestMobile，字節跳動旗下即夢AI、豆包(bao)愛學及(ji)螞蟻集團旗下AQ健康管家等垂類應用(yong)三季(ji)度月活躍用(yong)戶規(gui)模復合增(zeng)長率分(fen)別達12.1%、15.7%和83.4%。

對Kimi而言，差異化的(de)核心(xin)在(zai)于將(jiang)模型能(neng)力(li)轉(zhuan)化為用戶可(ke)感知的(de)價(jia)值(zhi)。其能(neng)否(fou)在(zai)Agent搜(sou)索、編程助手、深度(du)研(yan)究等場(chang)景建立起(qi)不可(ke)替代(dai)性，將(jiang)決定技(ji)術升級的(de)市(shi)場(chang)成效(xiao)。

Kimi K2 Thinking展現出(chu)的(de)(de)技術縱深，為月(yue)之暗面在(zai)“思考型Agent”這一差(cha)異化路徑(jing)上贏得了重要籌(chou)碼。然而，在(zai)白熱化的(de)(de)大模型競爭中，技術領(ling)先性只是入場(chang)(chang)券，能否將“長思考”“強推理”的(de)(de)模型能力，轉化為用戶高頻依賴的(de)(de)應用場(chang)(chang)景，并構建起可持續的(de)(de)商業模式，才(cai)是真(zhen)正的(de)(de)破局關鍵。

封面圖(tu)片(pian)來(lai)源：圖(tu)片(pian)來(lai)源：視覺中國-VCG211478193393

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社(she)授權，嚴禁轉(zhuan)載或鏡(jing)像，違者(zhe)必究(jiu)。

讀者熱線(xian)：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如(ru)您不希望作品出現在本(ben)站，可(ke)聯(lian)系我們(men)要求撤下(xia)您的作品。

上一篇文章

揭秘本周大宗交易(yi)：815筆大宗交易(yi)成交115.74億元，機構席(xi)位掃(sao)貨這(zhe)8只個(ge)股（附名(ming)單）

返回每經網首頁

下一篇文章

暈了暈了！機構大動作調倉，55只行業主題ETF被(bei)瘋狂掃貨，而熱(re)門的半導體竟被(bei)悄然拋售(shou)