要聞

谷歌最強大AI模型Gemini 3來了！推理能力實現重大突破！圖像生成、編程與AI搜索全面增強

2025-11-19 06:19:48

當地時間11月18日，谷(gu)歌發布(bu)迄今最強大AI模型Gemini 3，并在搜索、應用(yong)及開發者平臺同步上線，顯示其加快AI商業(ye)化(hua)決心(xin)。新模型推(tui)理(li)能力顯著(zhu)進步，在多個基(ji)準測試中領先，還被稱為“最佳編(bian)碼模型”。此外，該模型多模態(tai)理(li)解能力強，發布(bu)首日即整合(he)到多個核(he)心(xin)產品中，且安(an)全(quan)性更高，經歷了谷(gu)歌史上最全(quan)面(mian)安(an)全(quan)評估。

每經編輯｜杜(du)宇

當(dang)地(di)時(shi)間11月18日，Alphabet旗(qi)下(xia)的谷歌正式發布備受期待(dai)的該(gai)司迄今最強大人工智(zhi)能（AI）模(mo)型(xing)Gemini 3，并于發布首(shou)日立(li)即在谷歌搜索、Gemini應(ying)用(yong)(yong)程序App及多個開發者(zhe)平臺(tai)同(tong)步上線，在多個盈利(li)產品(pin)中(zhong)投入使用(yong)(yong)。這是谷歌首(shou)次在新模(mo)型(xing)發布當(dang)天就將(jiang)其整合(he)到搜索產品(pin)中(zhong)，顯示出公司加(jia)快AI技術商(shang)業化(hua)的決心。

Alphabet首席執行官桑達爾·皮查伊當天表示，新AI模型將針對更復雜的問題提供更優答案。"用戶只需更少的提示，即可獲得所需結果。"此外，新模型在編程、應用開發與圖像生成方面的能力也大幅增強。

圖片來源：每經記者鄭雨航(hang) 攝

Gemini 3將被整合進Gemini應用(yong)、谷歌的AI搜索產(chan)品AI Mode和AI Overviews，以及其企業(ye)級(ji)產(chan)品。該(gai)模型(xing)將自周(zhou)二起向(xiang)部分訂閱用(yong)戶(hu)開(kai)放，并(bing)將在未來幾周(zhou)更大范圍上線。

此次(ci)發布距(ju)離谷歌推(tui)出Gemini 2.5僅八(ba)個(ge)(ge)月(yue)，距(ju)離Gemini 2.0上線(xian)也僅11個(ge)(ge)月(yue)。引(yin)爆生成式(shi)AI熱(re)潮的OpenAI已(yi)于今年(nian)8月(yue)份發布GPT-5。

皮查伊(yi)寫道：“令人驚嘆的是，僅僅兩(liang)年(nian)時間，AI已從單(dan)純(chun)處理文(wen)本和圖像，發(fa)展到能夠讀懂場景。從今天起，Gemini將在(zai)谷(gu)歌(ge)全系產品中全面鋪開。”

據谷歌披露的數據顯示，Gemini應用目(mu)前月(yue)(yue)活(huo)躍(yue)用戶已達6.5億(yi)，而AI Overviews擁有(you)20億(yi)月(yue)(yue)活(huo)用戶。OpenAI則在8月(yue)(yue)表示，ChatGPT周活(huo)躍(yue)用戶已突(tu)破7億(yi)。

谷歌高管在(zai)新聞發布會(hui)上強調，在(zai)衡量人工智能(neng)模型性(xing)能(neng)的(de)(de)幾個(ge)熱門行(xing)業(ye)排行(xing)榜上，Gemini 3處(chu)于領先(xian)地位。Gemini 3在(zai)全球(qiu)AI模型LMArena排行(xing)榜上以1501分的(de)(de)歷史最高分登頂(ding)，在(zai)衡量通用推理能(neng)力的(de)(de)Humanity's Last Exam基準測試(shi)中(zhong)獲得37.5%的(de)(de)最高分，超越了此前(qian)由GPT-5 Pro保(bao)持的(de)(de)31.64%紀錄。該(gai)模型還(huan)在(zai)數學、多模態理解和事(shi)實準確性(xing)等多個(ge)維度刷新了行(xing)業(ye)標(biao)準。

谷歌AI研究實驗室DeepMind的CEO Demis Hassabis表示，Gemini 3是"世界上最(zui)好的(de)多(duo)模(mo)態理解模(mo)型"，也是公司迄今最強(qiang)大的(de)智能體和(he)代碼生(sheng)成模(mo)型。谷歌CEO Sundar Pichai在博客中(zhong)稱其為"我們最智能的(de)模(mo)型"，能夠"將任何想(xiang)法(fa)變為現實"。

推理能力實現重(zhong)大突(tu)破

Gemini 3在推理能力上取得了顯著進步，在多項學術級基準測試中展現出博士水平的表現。該模型在GPQA Diamond測試中獲得91.9%的高分，在數學領域的MathArena Apex基準(zhun)測試中取得23.4%的新成績，在事實(shi)準確(que)性方面于SimpleQA Verified測試中達到(dao)72.1%的得(de)分。

在多模態推理方(fang)面，Gemini 3同(tong)樣(yang)表現出色，在MMMU-Pro測(ce)試中(zhong)獲得81%的分數，在Video-MMMU測(ce)試中(zhong)達到87.6%。這意味(wei)著(zhu)該模型能夠高度可靠地(di)處理科學和數學等廣泛領域的復雜問題。

谷歌產品負責人Tulsee Doshi表示："在Gemini 3身上，我們(men)看到(dao)了推理能(neng)力的(de)巨(ju)大飛躍。它(ta)的(de)響應深度和(he)細微程度是我們(men)以前從(cong)未(wei)見(jian)過的(de)。"

除(chu)標準版本外，谷(gu)歌還(huan)推出(chu)了Gemini 3 Deep Think增強推理模式(shi)，該模式(shi)在(zai)Humanity's Last Exam測試(shi)中達到41.0%的成績(ji)，在(zai)GPQA Diamond測試(shi)中獲得93.8%的分數。在(zai)ARC-AGI-2測試(shi)中，Deep Think模式(shi)創下了45.1%的前(qian)所未有成績(ji)，展(zhan)示(shi)了其解決新穎(ying)挑戰(zhan)的能(neng)力。谷(gu)歌表示(shi)，該模式(shi)正在(zai)接受額外的安(an)全(quan)評估，將在(zai)未來(lai)幾周內(nei)向(xiang)Google AI Ultra訂閱(yue)用戶開放(fang)。

開發者工具全面升級

在代碼生成領域，Gemini 3被谷歌稱為"迄今構建的最佳vibe coding和(he)智能體(ti)編碼(ma)模(mo)(mo)(mo)型"。該(gai)模(mo)(mo)(mo)型在WebDev Arena排(pai)行(xing)榜(bang)上以1487分的高(gao)分登(deng)頂，在衡量模(mo)(mo)(mo)型通過終端操作計算(suan)機(ji)能力(li)的Terminal-Bench 2.0測試中(zhong)獲得(de)54.2%的分數，在評估(gu)代碼(ma)智能體(ti)的SWE-bench Verified基準測試中(zhong)達到76.2%，遠(yuan)超Gemini 2.5 Pro的表(biao)現。

開(kai)發(fa)者(zhe)可(ke)以通過Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub、JetBrains、Manus和Replit等第三方平臺訪問Gemini 3。

谷歌同時推出了以智能體為先的全新開發平臺Google Antigravity，該平臺利用Gemini 3的高級推理、工具使用和智能體編碼能力，將AI輔助從開發者工具箱中的一個工具轉變為主動合作伙伴。DeepMind首席技術官Koray Kavukcuoglu表示："智能體可以在你的編輯器、終端和瀏覽器之間工作，以最佳方(fang)式幫助你構建應用程序(xu)。"

多模態理解與智能體能力并進

Gemini 3保留了該系(xi)列模型從(cong)一開始就(jiu)具備的(de)跨模態(tai)信息綜合能(neng)力，能(neng)夠無(wu)縫處理文本、圖像、視頻、音頻和(he)代(dai)碼等(deng)多種模態(tai)信息，并配(pei)備100萬(wan)token的(de)上下(xia)文窗口。

Hassabis舉例說，如果用(yong)戶(hu)(hu)想學習傳(chuan)統的(de)烹飪(ren)，Gemini 3可(ke)以破譯并(bing)翻譯不(bu)同語言的(de)手(shou)寫食(shi)譜，制作(zuo)成(cheng)(cheng)可(ke)分(fen)享的(de)家庭食(shi)譜書。如果用(yong)戶(hu)(hu)想了解新主題，可(ke)以提供學術(shu)論文(wen)、長視頻(pin)(pin)講座或(huo)教程，Gemini 3能夠生成(cheng)(cheng)交互式閃卡、可(ke)視化(hua)或(huo)其他(ta)格式的(de)內容幫助用(yong)戶(hu)(hu)掌握(wo)材料。該(gai)模(mo)型甚(shen)至可(ke)以分(fen)析用(yong)戶(hu)(hu)匹克(ke)球比賽的(de)視頻(pin)(pin)，識別(bie)改進空間并(bing)生成(cheng)(cheng)整(zheng)體動作(zuo)改善的(de)訓練(lian)計劃。

在智能(neng)(neng)體能(neng)(neng)力方面(mian)，Gemini 3在測(ce)試長期(qi)規劃能(neng)(neng)力的(de)(de)Vending-Bench 2排行榜上(shang)位居榜首。該模型能(neng)(neng)夠在整整一(yi)(yi)年(nian)的(de)(de)模擬運營中保持(chi)一(yi)(yi)致的(de)(de)工具使(shi)用和決策能(neng)(neng)力，在不偏離(li)任務(wu)的(de)(de)情況(kuang)下實現更(geng)高回報。這(zhe)意(yi)味著Gemini 3能(neng)(neng)夠通過結合更(geng)深(shen)入的(de)(de)推理與改進(jin)的(de)(de)工具使(shi)用，代表(biao)用戶導航更(geng)復雜的(de)(de)多步(bu)驟工作流程，例(li)如(ru)預訂(ding)本地(di)服(fu)務(wu)或整理收件箱。

發布即上線多個核心產品

谷歌此次(ci)采取了(le)積(ji)極(ji)的(de)產品(pin)策(ce)略，在Gemini 3發布首日就(jiu)將(jiang)其整合到多個核心產品(pin)中。這是谷歌首次(ci)在新模型發布當天就(jiu)將(jiang)其應用于搜(sou)索產品(pin)，標志著公司AI商業化戰(zhan)略的(de)重要轉變。

在搜索方面，AI Mode現(xian)在(zai)使用(yong)(yong)Gemini 3來(lai)實現(xian)新的生(sheng)成式(shi)用(yong)(yong)戶(hu)界面體驗，包括沉浸式(shi)視覺布局、交互式(shi)工具和模擬，所有這些都(dou)根據(ju)用(yong)(yong)戶(hu)查詢實時生(sheng)成。在(zai)Gemini App中，所有用(yong)(yong)戶(hu)都(dou)可以使用(yong)(yong)Gemini 3，Google AI Pro和Ultra訂閱用(yong)(yong)戶(hu)還可以在(zai)AI Mode搜索中使用(yong)(yong)該模型。

在安全性方面，谷歌表示Gemini 3是其迄今最安全的模型，經歷了谷歌AI模型史上最全面的安全評估。該模型顯示出更低的諂媚性、更強的提示注入抵抗力，以及通過網絡攻擊濫用的更好防護。除了根據其前沿安全框架進行的內部測試外，谷歌還與世界(jie)領(ling)先(xian)的領域專家(jia)合作進行評(ping)(ping)估(gu)，向(xiang)英國AISI等(deng)機構提(ti)供早期訪(fang)問權限，并(bing)獲得(de)了Apollo、Vaultis和(he)Dreadnode等(deng)行業專家(jia)的獨立評(ping)(ping)估(gu)。

每日經濟新(xin)聞綜合公開資料

如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每日經濟新聞》報(bao)社(she)授權，嚴禁轉載或鏡像，違者必究(jiu)。

讀者熱(re)線(xian)：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如(ru)您不希(xi)望(wang)作(zuo)品(pin)出現(xian)在本站，可(ke)聯系我們要(yao)求撤下您的作(zuo)品(pin)。

上一篇文章

11月(yue)19日每(mei)經整點

返回每經網首頁

下一篇文章

國產汽車芯片認證審(shen)查技術體(ti)系實現突破，零跑、小鵬、吉利汽車發布三季報 | 汽車早參