要聞

Deepseek、Kimi爭相對標“o1”，初創公司能打破“技術”和“用戶”二選一魔咒嗎？

每日經(jing)濟新聞 2025-01-22 11:04:30

1月20日，Deepseek和(he)Kimi相繼發布新模型(xing)DeepSeek-R1與k1.5多模態(tai)思考模型(xing)，二者均在技術(shu)性(xing)能上(shang)對(dui)(dui)標OpenAI o1正式版。這些動作反映了大模型(xing)領(ling)域內的(de)(de)激(ji)烈競(jing)爭態(tai)勢(shi)和(he)技術(shu)競(jing)賽的(de)(de)升級。面對(dui)(dui)互聯網大廠的(de)(de)競(jing)爭壓力(li)，大模型(xing)創業公司正探索不(bu)同的(de)(de)戰略路徑(jing)，試圖在技術(shu)和(he)市場間(jian)找到平衡點。

每(mei)經記者｜楊昕怡每(mei)經編輯｜文多(duo) ;

春節將至，國內大模(mo)型(xing)(xing)創業公司集體(ti)“湊熱鬧(nao)”，發布了多個對標OpenAI o1的新模(mo)型(xing)(xing)。

發(fa)布(bu)密集程(cheng)度從1月20日(ri)Deepseek和Kimi的(de)“前腳后腳”中可見一斑，在Deepseek發(fa)布(bu)新模型DeepSeek-R1后的(de)兩小時內，Kimi推(tui)出了(le)k1.5多模態(tai)思考模型。

圖片來源：微信截圖

據Kimi官方介紹，新(xin)模型在(zai)數學、代(dai)碼、多模態推(tui)理能力(li)等方面全(quan)面對標(biao)“Open AI滿(man)血版(ban)o1”，這(zhe)也是Open AI之(zhi)外的公(gong)司首次達到o1正式版(ban)水準的多模態推(tui)理性(xing)能。

“Kimi探(tan)索的(de)是C端場(chang)景，它探(tan)索了一個不同于(yu)Deepseek V3的(de)基(ji)座(zuo)模(mo)(mo)(mo)型(xing)方案，通(tong)過進行(xing)長模(mo)(mo)(mo)型(xing)和(he)短模(mo)(mo)(mo)型(xing)的(de)權重合并，以及短模(mo)(mo)(mo)型(xing)的(de)特化RL（意為強化學習），最(zui)大化保留(liu)了類o1模(mo)(mo)(mo)型(xing)的(de)能力。”一位(wei)國內頭部大模(mo)(mo)(mo)型(xing)的(de)算法工程師在20日接受(shou)《每(mei)日經濟新聞》記(ji)者采訪時表示。

大模(mo)型是需要“重倉”投入人才、資金(jin)甚至(zhi)耐心的(de)領域，因此相對于互聯網大廠而言，以(yi)“AI六小(xiao)龍”為代表的(de)大模(mo)型創業公司面臨著更(geng)多艱難(nan)的(de)選擇題。

“創(chuang)(chuang)業公司就(jiu)得做取舍。”在近(jin)期的(de)一次采訪中，MiniMax創(chuang)(chuang)始(shi)人(ren)閆俊杰認為(wei)用戶數(shu)等指標并非(fei)AI競爭的(de)核心，他(ta)把技術迭代(dai)作為(wei)最(zui)重要的(de)目標。而Kimi創(chuang)(chuang)始(shi)人(ren)楊植(zhi)麟在2024年11月接受《每日經濟(ji)新聞》記者采訪時表示，將(jiang)提升用戶留存視為(wei)Kimi眼(yan)下最(zui)核心的(de)任務。

或許正因如此，2024年下半年公眾討論Kimi時多(duo)談及(ji)其C端用戶體量優勢，而Deepseek卻(que)以鯰魚之(zhi)姿成為了國內大模(mo)型的技(ji)術(shu)焦點。如今，Kimi推出了k1.5，Deepseek也在本(ben)月(yue)上線了自有App，大模(mo)型初創公司在技(ji)術(shu)和用戶上能做好(hao)兩手(shou)抓嗎？

集體對標o1，Deepseek、Kimi相繼推出新模型

1月(yue)20日晚(wan)，Deepseek發布(bu)了DeepSeek-R1，并同步開源(yuan)模(mo)(mo)型(xing)(xing)權重。據官方介紹，DeepSeek-R1在后(hou)訓練階段(duan)大(da)規模(mo)(mo)使用了強化學習技術，在僅有極少標注數(shu)據的(de)情況下，極大(da)提(ti)升了模(mo)(mo)型(xing)(xing)推理能力(li)。在數(shu)學、代碼、自然語言(yan)推理等任(ren)務上，性能比肩 OpenAI o1正式版。

官方披(pi)露(lu)，DeepSeek-R1 API（應用(yong)程序編程接口(kou)）服務(wu)定價為每百萬(wan)輸(shu)入Tokens1元(yuan)(yuan)（緩存(cun)命中(zhong)）/4元(yuan)(yuan)（緩存(cun)未(wei)命中(zhong)），每百萬(wan)輸(shu)出Tokens16元(yuan)(yuan)。（注：Tokens指文本被分割成的基(ji)本單位(wei)）

隨后，Kimi也在當晚(wan)推出了全新的(de)k1.5多模(mo)態思考(kao)模(mo)型。官方(fang)介紹稱，從基準測試成績看(kan)，k1.5多模(mo)態思考(kao)模(mo)型實現了SOTA（意為特(te)定時(shi)間背景(jing)下的(de)最高水平）級(ji)別的(de)多模(mo)態推理(li)和通用推理(li)能力(li)。

一位國內頭部(bu)大模(mo)型的算法(fa)工程師向(xiang)《每日經濟新(xin)聞》記者表示：“Kimi探索了一條不同于Deepseek V3的基座(zuo)模(mo)型方(fang)案，通過進行長模(mo)型和短模(mo)型的權重合并，以(yi)及(ji)短模(mo)型的特(te)化(hua)RL，最大化(hua)保留了類o1模(mo)型的能力。”

從表現數據來看(kan)，在(zai)短(duan)鏈(lian)思考（short-CoT）模(mo)(mo)(mo)式下，Kimi k1.5的(de)數學、代碼、視覺多(duo)(duo)模(mo)(mo)(mo)態(tai)(tai)和(he)通用能(neng)力(li)，均超越(yue)了全球(qiu)范圍內(nei)短(duan)思考SOTA模(mo)(mo)(mo)型(xing)GPT-4o和(he)Claude 3.5 Sonnet的(de)水平(ping)；在(zai)長(chang)鏈(lian)思考（long-CoT）模(mo)(mo)(mo)式下，Kimi k1.5的(de)數學、代碼、多(duo)(duo)模(mo)(mo)(mo)態(tai)(tai)推理能(neng)力(li)，也達到長(chang)思考SOTA模(mo)(mo)(mo)型(xing)OpenAI o1正式版的(de)水平(ping)。

此(ci)外(wai)，字節跳(tiao)動旗(qi)下的(de)豆包于1月20日(ri)推出(chu)了(le)實(shi)時語音大(da)模型(xing)(xing)；“AI六(liu)小龍”之一的(de)階躍星辰也(ye)在同天(tian)上線了(le)Step-2系列語言模型(xing)(xing)的(de)兩款新品，即參數量小、性價比更(geng)高的(de)Step-2 mini以及針(zhen)對內容創作(zuo)(zuo)領(ling)域(yu)推出(chu)的(de)“Step文學大(da)師版”。不難看(kan)出(chu)，作(zuo)(zuo)為當下最為炙手(shou)可熱的(de)行(xing)業，大(da)模型(xing)(xing)領(ling)域(yu)的(de)技術(shu)競賽日(ri)趨激(ji)烈。

技術和用戶，初創公司必須取舍嗎？

玩家們仍(reng)在同(tong)一田徑場內競爭，但(dan)起跑線和(he)(he)賽道已(yi)經不同(tong)。2025年剛剛開(kai)始，國內“AI六小龍”和(he)(he)互聯網大廠等有代表性的(de)大模型選(xuan)手(shou)就在戰(zhan)略(lve)方(fang)向、側重(zhong)點上(shang)出現了(le)分野。

1月7日，大(da)模型(xing)創業公司零(ling)(ling)一(yi)(yi)萬(wan)物CEO李開復回應媒(mei)體稱(cheng)，只有大(da)廠能夠“燒”（指投(tou)入(ru)巨資研發(fa)）超(chao)大(da)模型(xing)，零(ling)(ling)一(yi)(yi)萬(wan)物2024年以來的(de)目標，是做小參數(shu)、適中的(de)行業模型(xing)。 “（零(ling)(ling)一(yi)(yi)萬(wan)物團隊(dui)中）愿(yuan)意繼續訓練超(chao)大(da)參數(shu)模型(xing)的(de)成員，加入(ru)了(le)零(ling)(ling)一(yi)(yi)萬(wan)物和阿里云成立的(de)‘產業大(da)模型(xing)聯合(he)實驗室’。”他介紹。

李開(kai)復還(huan)表(biao)示，除了模型訓練策略的(de)(de)調整(zheng)，零一(yi)萬物(wu)還(huan)考慮將游戲(xi)、金融(rong)等(deng)方向的(de)(de)AI業務(wu)拆分，進行獨立(li)運(yun)營和融(rong)資。

“我們是(shi)一家商業公(gong)司，而非(fei)單純(chun)的(de)技(ji)術實驗室。”李開復(fu)似乎已經(jing)用零一萬物的(de)轉型回答(da)了，大模(mo)型初創公(gong)司難(nan)以(yi)兼(jian)得“月亮”和“六便(bian)士”。

“‘六小龍’的(de)(de)估(gu)值(zhi)增長得非常快(kuai)，但整體(ti)業(ye)(ye)務的(de)(de)落地收入、用戶規(gui)模等情況(kuang)都不太理想。所(suo)以投了大(da)模型的(de)(de)投資人在(zai)2024年實(shi)際上(shang)是(shi)比(bi)較焦慮的(de)(de)。”一位AI領域的(de)(de)投資人在(zai)接受《每(mei)日經濟(ji)新(xin)聞(wen)》記者采訪時表示(shi)，大(da)模型的(de)(de)商(shang)業(ye)(ye)化路徑難題也影(ying)響到了投資人的(de)(de)投資心(xin)態。

“在(zai)產品(pin)上，豆包（的(de)(de)(de)用(yong)戶體量）現(xian)在(zai)超出了(le)；在(zai)技術(shu)上，Deepseek、阿(a)里的(de)(de)(de)通(tong)義做得也比‘小(xiao)龍們(men)’好。”在(zai)該(gai)投資人(ren)看來，面(mian)臨(lin)大廠的(de)(de)(de)挑戰(zhan)時，以“AI六小(xiao)龍”為代表的(de)(de)(de)大模型(xing)創業(ye)公(gong)司(si)需要一(yi)定的(de)(de)(de)“生存戰(zhan)略(lve)”，這些創業(ye)公(gong)司(si)要么(me)有(you)產品(pin)上的(de)(de)(de)差異化定位，要么(me)有(you)一(yi)個足夠的(de)(de)(de)時間窗口“往前跑”。

在相對有限的資(zi)源、時間之下，“取舍”“聚焦”成為了國內多家大模(mo)型創業(ye)公司在2024年的戰(zhan)略關鍵詞。

“（2024年(nian)）最(zui)大的(de)(de)痛苦(ku)是不(bu)知(zhi)道要(yao)做(zuo)取舍。當(dang)知(zhi)道了，就不(bu)痛苦(ku)了。我(wo)現在把技(ji)術(shu)迭代作為我(wo)們最(zui)重要(yao)的(de)(de)目(mu)標。”閆俊杰在近期(qi)接受媒體采訪(fang)時表(biao)示，如(ru)果面對(dui)“產品驅(qu)動”和“技(ji)術(shu)驅(qu)動”二(er)選一的(de)(de)局面，他會選擇后者。

他(ta)舉(ju)例解(jie)釋，如果要(yao)上線一個算法變化，而這可能會影響用戶數據，那他(ta)會根據算法趨(qu)勢(shi)來決(jue)策，“2023年時還會糾結，2024年基本不糾結了”。

而這(zhe)大概率不(bu)是Kimi的(de)想法。楊植麟在2024年11月接受《每日經濟(ji)新聞》記者采(cai)訪時表示，將(jiang)提升用戶留(liu)存(cun)視為(wei)Kimi眼下最核(he)心(xin)的(de)任(ren)務，這(zhe)一點也能從(cong)Kimi在C端用戶的(de)爭奪力度、既(ji)有規(gui)模體量上看出。

商業智能數(shu)據(ju)服務(wu)商QuestMobile發布的(de)(de)數(shu)據(ju)顯(xian)示，截至2024年12月(yue)份(fen)，豆包、Kimi、文小(xiao)言在AI原生App領域的(de)(de)“三(san)強(qiang)格局”已經形成，月(yue)活躍(yue)用戶規模(mo)分別為7523萬(wan)、2101萬(wan)和(he)1224萬(wan)。然而，12月(yue)份(fen)，豆包與(yu)Kimi、文小(xiao)言的(de)(de)重合用戶已分別達到754.1萬(wan)、409.8萬(wan)，相比6月(yue)份(fen)分別上升了5.5%、0.6%。

從(cong)以上(shang)數據來看(kan)，豆包的持續(xu)擴張給Kimi帶去了(le)不言(yan)而喻的壓(ya)力(li)。

“希望(wang)更多技(ji)術人(ren)才可以通過這份(fen)技(ji)術報告，了(le)解到(dao)Kimi在(zai)模型訓練方(fang)面所做的(de)部分工(gong)作。如果(guo)感(gan)興趣的(de)話，歡迎加入我們，一起登(deng)月。”在(zai)官(guan)方(fang)對(dui)k1.5的(de)介(jie)紹文(wen)章中(zhong)，Kimi把對(dui)人(ren)才的(de)招攬也放在(zai)了(le)顯眼的(de)位置。對(dui)于技(ji)術迭代和用戶規模，Kimi似乎(hu)不想做選(xuan)擇題(ti)，但如果(guo)公司(si)打算(suan)兼得二者(zhe)，則要看Kimi在(zai)人(ren)力物力上的(de)儲備還有多少了(le)。

封面圖片來源：視覺(jue)中國

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日(ri)經濟新聞》報社(she)授權，嚴禁轉載(zai)或(huo)鏡像，違者必究(jiu)。

讀者(zhe)熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索(suo)取稿酬。如您不希望作(zuo)品出現在本站，可聯(lian)系我們要(yao)求(qiu)撤下您的(de)作(zuo)品。

春節將至，國內大模型創業公司集體“湊熱鬧”，發布了多個對標OpenAI o1的新模型。發布密集程度從1月20日Deepseek和Kimi的“前腳后腳”中可見一斑，在Deepseek發布新模型DeepSeek-R1后的兩小時內，Kimi推出了k1.5多模態思考模型。圖片來源：微信截圖據Kimi官方介紹，新模型在數學、代碼、多模態推理能力等方面全面對標“Open AI滿血版o1”，這也是Open AI之外的公司首次達到o1正式版水準的多模態推理性能。 “Kimi探索的是C端場景，它探索了一個不同于Deepseek V3的基座模型方案，通過進行長模型和短模型的權重合并，以及短模型的特化RL（意為強化學習），最大化保留了類o1模型的能力。”一位國內頭部大模型的算法工程師在20日接受《每日經濟新聞》記者采訪時表示。大模型是需要“重倉”投入人才、資金甚至耐心的領域，因此相對于互聯網大廠而言，以“AI六小龍”為代表的大模型創業公司面臨著更多艱難的選擇題。 “創業公司就得做取舍。”在近期的一次采訪中，MiniMax創始人閆俊杰認為用戶數等指標并非AI競爭的核心，他把技術迭代作為最重要的目標。而Kimi創始人楊植麟在2024年11月接受《每日經濟新聞》記者采訪時表示，將提升用戶留存視為Kimi眼下最核心的任務。或許正因如此，2024年下半年公眾討論Kimi時多談及其C端用戶體量優勢，而Deepseek卻以鯰魚之姿成為了國內大模型的技術焦點。如今，Kimi推出了k1.5，Deepseek也在本月上線了自有App，大模型初創公司在技術和用戶上能做好兩手抓嗎？集體對標o1，Deepseek、Kimi相繼推出新模型 1月20日晚，Deepseek發布了DeepSeek-R1，并同步開源模型權重。據官方介紹，DeepSeek-R1在后訓練階段大規模使用了強化學習技術，在僅有極少標注數據的情況下，極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上，性能比肩 OpenAI o1正式版。官方披露，DeepSeek-R1 API（應用程序編程接口）服務定價為每百萬輸入Tokens1元（緩存命中）/4元（緩存未命中），每百萬輸出Tokens16元。（注：Tokens指文本被分割成的基本單位）隨后，Kimi也在當晚推出了全新的k1.5多模態思考模型。官方介紹稱，從基準測試成績看，k1.5多模態思考模型實現了SOTA（意為特定時間背景下的最高水平）級別的多模態推理和通用推理能力。一位國內頭部大模型的算法工程師向《每日經濟新聞》記者表示：“Kimi探索了一條不同于Deepseek V3的基座模型方案，通過進行長模型和短模型的權重合并，以及短模型的特化RL，最大化保留了類o1模型的能力。” 從表現數據來看，在短鏈思考（short-CoT）模式下，Kimi k1.5的數學、代碼、視覺多模態和通用能力，均超越了全球范圍內短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平；在長鏈思考（long-CoT）模式下，Kimi k1.5的數學、代碼、多模態推理能力，也達到長思考SOTA模型OpenAI o1正式版的水平。此外，字節跳動旗下的豆包于1月20日推出了實時語音大模型；“AI六小龍”之一的階躍星辰也在同天上線了Step-2系列語言模型的兩款新品，即參數量小、性價比更高的Step-2 mini以及針對內容創作領域推出的“Step文學大師版”。不難看出，作為當下最為炙手可熱的行業，大模型領域的技術競賽日趨激烈。技術和用戶，初創公司必須取舍嗎？玩家們仍在同一田徑場內競爭，但起跑線和賽道已經不同。2025年剛剛開始，國內“AI六小龍”和互聯網大廠等有代表性的大模型選手就在戰略方向、側重點上出現了分野。 1月7日，大模型創業公司零一萬物CEO李開復回應媒體稱，只有大廠能夠“燒”（指投入巨資研發）超大模型，零一萬物2024年以來的目標，是做小參數、適中的行業模型。 “（零一萬物團隊中）愿意繼續訓練超大參數模型的成員，加入了零一萬物和阿里云成立的‘產業大模型聯合實驗室’。”他介紹。李開復還表示，除了模型訓練策略的調整，零一萬物還考慮將游戲、金融等方向的AI業務拆分，進行獨立運營和融資。 “我們是一家商業公司，而非單純的技術實驗室。”李開復似乎已經用零一萬物的轉型回答了，大模型初創公司難以兼得“月亮”和“六便士”。 “‘六小龍’的估值增長得非常快，但整體業務的落地收入、用戶規模等情況都不太理想。所以投了大模型的投資人在2024年實際上是比較焦慮的。”一位AI領域的投資人在接受《每日經濟新聞》記者采訪時表示，大模型的商業化路徑難題也影響到了投資人的投資心態。 “在產品上，豆包（的用戶體量）現在超出了；在技術上，Deepseek、阿里的通義做得也比‘小龍們’好。”在該投資人看來，面臨大廠的挑戰時，以“AI六小龍”為代表的大模型創業公司需要一定的“生存戰略”，這些創業公司要么有產品上的差異化定位，要么有一個足夠的時間窗口“往前跑”。在相對有限的資源、時間之下，“取舍”“聚焦”成為了國內多家大模型創業公司在2024年的戰略關鍵詞。 “（2024年）最大的痛苦是不知道要做取舍。當知道了，就不痛苦了。我現在把技術迭代作為我們最重要的目標。”閆俊杰在近期接受媒體采訪時表示，如果面對“產品驅動”和“技術驅動”二選一的局面，他會選擇后者。他舉例解釋，如果要上線一個算法變化，而這可能會影響用戶數據，那他會根據算法趨勢來決策，“2023年時還會糾結，2024年基本不糾結了”。而這大概率不是Kimi的想法。楊植麟在2024年11月接受《每日經濟新聞》記者采訪時表示，將提升用戶留存視為Kimi眼下最核心的任務，這一點也能從Kimi在C端用戶的爭奪力度、既有規模體量上看出。商業智能數據服務商QuestMobile發布的數據顯示，截至2024年12月份，豆包、Kimi、文小言在AI原生App領域的“三強格局”已經形成，月活躍用戶規模分別為7523萬、2101萬和1224萬。然而，12月份，豆包與Kimi、文小言的重合用戶已分別達到754.1萬、409.8萬，相比6月份分別上升了5.5%、0.6%。從以上數據來看，豆包的持續擴張給Kimi帶去了不言而喻的壓力。 “希望更多技術人才可以通過這份技術報告，了解到Kimi在模型訓練方面所做的部分工作。如果感興趣的話，歡迎加入我們，一起登月。”在官方對k1.5的介紹文章中，Kimi把對人才的招攬也放在了顯眼的位置。對于技術迭代和用戶規模，Kimi似乎不想做選擇題，但如果公司打算兼得二者，則要看Kimi在人力物力上的儲備還有多少了。

模型 Kimi Kimi

上一篇文章

德聯集團(tuan)：預計2024年凈(jing)利潤同比上(shang)升(sheng)85%—150%

返回每經網首頁

下一篇文章

中投(tou)公司：增強主(zhu)權財(cai)富基(ji)金核(he)心功能，優(you)化國有(you)金融資本受托(tuo)管理