
在這場獨家對話中,谷歌DeepMind CEO Demis Hassabis和Gemini團隊副總裁Josh Woodward首次全面揭秘了Gemini 3的技術突破、產品策略,以及通往AGI的路徑。
他們坦言,距離AGI仍需要一到兩個重大突破,時間線仍是5-10年,但Gemini 3已經讓人們看到了這個未來的雛形。
以下為對話全文:
Casey:我們今天有一期特別的緊急播客,關于Gemini的發布。
Kevin:是的,這次備受期待的發布在硅谷AI圈引發了熱烈討論。我們終于要親手體驗真正的產品了。
Kevin:通常我們不會為了某個大型AI公司發布新模型就打破周五的發布計劃,出一期特別節目。他們一直在發布各種模型。但這周我們認為值得專門談談Gemini 3,有幾個原因。
首先,我們采訪到了Demis Hassabis和Josh Woodward,兩位谷歌AI部門的核心高管,Demis是谷歌DeepMind的CEO,這是他們內部的AI實驗室。
Josh Woodward是Gemini團隊的副總裁,同時負責谷歌的其他一些項目。所以我們很高興能和他們聊聊這次重大的模型發布。但我認為我們感興趣的原因還不止這些。
Casey:是的,Kevin,一個重要的原因是,相比其他模型發布,這次Gemini 3似乎格外引起了谷歌競爭對手的關注。
我們從其他AI實驗室的員工那里聽到很多傳言,嗯,看起來Gemini 3在某些方面取得了突破,這可能對他們的業務不利。
我認為整個AI行業都有一種感覺:谷歌在AI領域掙扎了幾年——他們推出了Bard和第一代Gemini,都遇到了一些問題。
大家一直覺得他們在追趕最先進的技術。現在問題是,這是不是意味著他們要奪回王冠了?
所以我們會和Demis、Josh深入討論這些。但先讓我們聊聊Casey,我們對Gemini 3了解多少。
他們本周早些時候舉行了一場簡報會,介紹了這個新模型及其能力。我們了解到了什么?
-1-
Casey:好的,就能力而言,這對我來說永遠是最有趣的部分。谷歌分享了幾個方面。首先,除了那些你能想到的常規升級,比如編碼能力更強、氛圍編程更好之外,它還會在你提問時生成新的交互界面。
現在,你問大多數聊天機器人一個問題,它會用文本回復,可能會顯示一張圖片。
但據谷歌的說法,Gemini 3會直接為你構建定制化的界面。
他們展示了一個例子,有人想了解畫家梵高,Gemini 3就編寫了一個交互式教程,包含各種圖像和互動元素。
他們還展示了另一個例子,構建了一個針對百萬美元以上房產的抵押貸款計算器,這是谷歌員工能想象的最低購房預算了。所以這些就是你可以期待在Gemini 3中看到的功能,Kevin。
Kevin:是的。我要說,簡報會和谷歌在Gemini 3發布前分享的材料的主題就是:這個模型在幾乎所有方面都比他們上一個模型Gemini 2.5 Pro更好。
有幾個引起我注意的基準測試,一個叫"人類最后的考試"(Humanity's Last Exam),這是一個非常難的跨學科考試,包含一系列問題,基本上是研究生或博士水平的。
他們之前的模型Gemini 2.5 Pro在這個測試中得分約21.6%,而Gemini 3 Pro得分37.5%。
基本上所有這些基準測試都是這個趨勢。他們給出了十幾個不同基準測試的例子,新模型都輕松擊敗了舊模型。
對很多人來說,這可能無關緊要。大多數使用谷歌AI產品的人可能不會去解決物理學中的新問題。
但他們的基本宣傳就是:這是一個最先進的模型,你能用ChatGPT、Claude或舊版Gemini做的任何事情,用Gemini 3 Pro都能做得更好。
他們還談到了正在測試的Gemini智能體,它能做一件我一直期待有人做的事:瀏覽你的收件箱,理解內容,提議回復,把郵件分類整理,真正幫你控制收件箱。
這是我個人從未做到過的。我們基本上只看到了幾張動圖演示,但這肯定會是我拿到Gemini 3后第一個嘗試的功能。
Casey:是的,我們應該說,他們不會立即向所有人推出。本周它會在Gemini應用中提供,也會在AI模式中提供,那是谷歌主搜索引擎旁邊的一個標簽。它也會在各種產品中向開發者提供。
但他們沒有說什么時候會進入像Google Docs或Gmail中的Gemini集成,這些每天有數十億人使用的非常受歡迎的產品。
但我覺得有趣的是,他們已經把這個模型帶到了谷歌搜索,雖然是在AI模式中,而不是主搜索欄。這對我來說意味著,他們覺得可以以足夠低的成本提供這個模型,使其有可能被數十億人使用,而不會讓他們的服務器崩潰或產生數十億美元的成本。
Kevin:是的,到目前為止他們說AI概覽(AI Overviews)的使用量一直在增長,每個季度他們都繼續賺更多錢。所以這對他們來說效果不錯,對互聯網其他部分來說不太好,但對谷歌來說效果很好。
Casey:是的,但我認為這就像,顯然谷歌在這里相對于競爭對手的巨大優勢在于,他們有每天被數十億人使用的產品,隨著時間推移,他們可以把Gemini 3塞進這些產品,獲得越來越多的使用量和數據,并用這些來改進他們的模型。
Kevin:這就是為什么我們總是告訴學生,當他們向我們尋求建議時:第一步,建立一個非法壟斷。
Casey:是的。說到學生,谷歌本周宣布的另一個重要消息是,他們將向所有美國大學生提供一年免費的Gemini付費版本。
我認為這是個聰明的舉動。我對此感覺有點不舒服,基本上就是告訴學生,嘿,為什么不用這個來做一些家庭作業,也許幫你考試。我們會給你第一次免費體驗。
Kevin:是的,你知道,我在今天早上的簡報會上也注意到,我相信有三個不同的人使用了學習任何東西。
這似乎已經成為谷歌信息傳遞中非常突出的一部分,他們把Gemini呈現為一個學習工具,這也許只是"幫你做作業工具"的委婉說法。我不知道。
Casey:是的。好的,這就是我們對Gemini 3的了解。一旦它在周二完全發布,我們將進行自己的測試和評測。但現在,我們想給你們介紹基礎知識,還有我們對谷歌DeepMind的Demis Hassabis和Josh Woodward的采訪。
在我們開始之前,我們應該做一下聲明。我為《紐約時報》公司工作,該公司正在就大型語言模型的訓練起訴OpenAI和微軟,我的男朋友在Anthropic工作。
-2-
主持人:Demis和Josh,歡迎來到Hard Fork。
Demis & Josh:很高興來這里。謝謝。
主持人:兩年前,Sundar Pichai告訴我們,Bard是一輛改裝過的本田思域,正在與更強大的車競爭。那Gemini 3是什么車?
Josh:這是個好問題。Demis,你想回答嗎?
Demis:嗯,我希望它比本田思域快一點。你知道,我不太喜歡用車來類比……也許它是那些很酷的直線加速賽車之一。
主持人:人們對這個模型非常興奮。我們從一些早期測試者那里聽到反饋,顯然你們展示了很多基準測試,非常令人印象深刻。在具體層面上,Gemini能做哪些以前的AI模型做不到的事情?
Josh:好的,我來說幾點突出的。第一,我們開始看到這個模型在推理方面真正表現出色,能夠同時思考很多步驟。有時過去的模型會失去思路,失去追蹤。這個模型在這方面好得多。
第二點你明天也會看到,就是各種新的生成式界面。這是我們迄今為止在創建新型界面方面最好的模型。它為人們提供真正定制化的設計和對問題的回答。
第三點我要說的是,我們在編碼本身投入了大量精力。所以你會看到很多編碼例子,像Google Anti-Gravity這樣的新產品也會展示這一點。
主持人:有一種討論認為,對于普通用戶來說,聊天用例可能已經解決了,普通用戶幾乎想不出一個問題,能讓新模型生成與上一代明顯不同的結果。這對你們來說在多大程度上是真的?普通人真的會注意到差異嗎?
Josh:是的,我們在一些測試中看到的,Demis也可以補充,我認為這些模型真的——對我們來說,這個模型更簡潔、更有表現力,開始以更容易理解的方式呈現信息。我認為對大多數人來說,這會是一個很大的直接影響。
然后我認為有趣的是,這些模型如何開始與其他類型的信息互動。所以我們經常談論學生如何能夠用這個模型學習,或者這個模型如何在你的許可下連接到你在其他谷歌產品中可能擁有的其他類型的數據。這些是我們開始展示的方式,我認為它已經超越了標準的文本問答來回。
Demis:是的,我想補充一點,就是它的總體可靠性。你使用時會注意到。我認為我們在內部稱之為"人設"(persona)的東西上下了很大功夫,就像它的風格。
我認為它更簡潔,更切中要點,很有幫助。我覺得它的風格更好。我發現用它來頭腦風暴和使用更愉快。
然后我認為,在一些方面幾乎有一個階躍變化。我覺得它在實用性上跨越了某種門檻,比如氛圍編程(vibe coding)。
我一直在重新學習游戲編程。我打算在圣誕節期間給自己設定一些項目,因為我覺得它在前端和這類事情上已經達到了一個非常有用和強大的水平,而之前的版本可能沒那么好。
-3-
主持人:Demis,上次你上我們的節目是在5月,你說你認為我們距離AGI還有5到10年,而且可能需要一些重大突破。Gemini 3有多好,觀察它的表現,是否改變了這些時間線?或者它是否包含了你認為必要的那些突破?
Demis:不,我認為它完全按計劃進行,如果你明白我的意思。我認為我們對這個進展非常滿意。我認為這是一個絕對驚人的模型,完全符合我的預期和我們過去幾年的發展軌跡,實際上自從Gemini開始以來,我認為這是業內進步最快的。我認為我們會繼續這個軌跡,我們期待這會持續。
但除此之外,我仍然認為還需要一到兩個額外的東西,才能真正獲得你期望從通用智能中得到的全面一致性,以及在推理、記憶方面的改進,也許還有像世界模型這樣的想法——你也知道我們正在用Simmer和Jeannie研究這些。它們會建立在Gemini之上,但以各種方式擴展它。我認為其中一些想法也是完全解決物理智能等問題所必需的。
所以兩者都是真的。我對Gemini 3的進展非常滿意,我認為人們會相當驚喜,但它符合我們預期的進展軌跡。這意味著仍然是5到10年,可能還需要一到兩個突破。
-4-
主持人:你提到了Gemini 3的風格。最近有很多關于AI伴侶的討論,人們與它們建立的關系。你如何看待Gemini 3的個性,你希望用戶與它建立什么樣的關系?
Josh:我要說,在應用本身中,我們在團隊中很大程度上把它看作一個工具,或者說是你用來處理和應對一天工作的東西。
所以無論是幫助你解決不同類型的問題,還是幫助你創造東西,這真的是我們看到它真正擅長的地方,也是我們希望看到的方向。
我認為如果你放大來看,如果你看Gemini或我們的其他一些項目,比如Notebook LM或Flow,我們真的在試圖思考AI如何成為你工具箱中的這個超級力量、超級工具,無論你是用于寫作、研究、制作電影還是其他什么。這才是我們真正關注的地方。
我認為隨著時間推移,我們團隊真的很感興趣能夠追蹤像"我們幫你一天完成了多少任務"這樣的指標。
這是一種新型指標,我認為我們對此感到興奮,也是原始谷歌搜索工作方式的某種延續,你來到它這里,你試圖獲得一個答案或被發送到一個頁面,然后從那里繼續。
主持人:這一切聽起來都很好很負責任,但我想知道,你們不做一個色情伴侶,是不是放棄了很多病毒式傳播的參與度。
Josh:無可奉告。
-5-
主持人:你們的一些競爭對手在Gemini 3發布前的幾天和幾周里非常緊張,我認為他們開始聽到和我們一樣的傳言,說這個模型相當不錯。也許敘事正在從谷歌在AI領域追趕,轉變為現在在競賽中處于領先地位,或至少處于領導地位。你們覺得谷歌現在在AI競賽中領先嗎?
Demis:看,你們都很清楚,這是一個非常激烈的競爭環境,可能是有史以來最激烈的。所以永遠不能……真正唯一重要的是你的進步速度,對吧,從你所在的位置。這就是我們關注的,我們對此非常滿意。
我的意思是,我真的不把它看作是,你知道,我們重新領先了之類的。我們一直在這個研究領域處于先鋒地位。我認為這就像確保這在下游反映在我們所有的產品中。我認為我們真的進入了狀態。我認為你實際上在去年就看到了這一點。我們在這方面越來越好。
就像GDM(谷歌DeepMind)是谷歌的引擎室。當然,有Gemini應用,有Notebook LM,這些AI優先的產品,但也在為所有這些令人驚嘆的現有谷歌產品提供動力,無論是地圖、YouTube、安卓,當然還有搜索,帶有AI優先的功能,實際上在某些情況下,從AI優先的角度重新構想事物,通常Gemini在后臺運行。
這進展得非常好。我認為我們只是完成了這個進化的一半,但看到我們的用戶在看到每一個新功能時獲得的價值和興奮,這非常令人興奮,例如,工作空間、Gmail等等。那里幾乎有無限的可能性。所以我們對此非常興奮,還有所有這些我們也在想象和原型制作的AI優先產品。
-6-
主持人:?我們上周節目請了一位歷史學家,他在 AI Studio 里用了一個未發布的谷歌模型。他被震驚了,因為那個模型能夠轉錄非常古老的文件,并正確推理出