昨晚,谷歌發佈「AI 超級全家桶」,但最大的創新卻被 OpenAI 狙擊了

不出預料,谷歌是被 OpenAI 狙擊了。

一連串煙霧彈後,昨天 OpenAI 用一個可以看到、聽到真實世界,並可以實時無延遲對話的 AI 智能助手「GPT-4o」震撼了世界。而把發佈 4o 的時間點特別選在谷歌 I/O 大會開幕前一天,當時就有媒體預測,OpenAI 這是在狙擊谷歌。

果不其然,美國當地時間 14 日上午 10 點舉行的谷歌 I/O 大會主題演講上,雖然谷歌發佈了一系列基於 Gemini 的「AI 全家桶」——包括升級 200 萬 tokens 上下文的 Gemini 1.5 Pro、新模型 Gemini 1.5 flash、類 Sora 的新視頻大模型 Veo,以及包括 AI 搜索、AI + Gmail 在內的多個 AI 應用。

但最受關注的,還是谷歌 DeepMind 負責人兼谷歌 AI 領導者 Demis Hassabis 口中,真正通向 AGI 的萬能助手項目——「Project Astra」。以及面向 Gemini Advanced 訂閱者新推出的語音聊天功能 Live,後者預計還將在年內加入相機功能,讓 AI 可以基於用戶所處的真實環境展開對話。

這兩個產品都有點像「GPT-4o」,但先不論三者的真實效果到底如何,從產品進展來看 OpenAI 已經領先一籌。不過這也不意味着 OpenAI 註定成爲最後的贏家,目前來看手機依然是這些超級智能助手最重要的硬件載體,掌握安卓系統的谷歌有着天然的優勢。從這個角度看,前段時間蘋果與 OpenAI 的合作傳聞,可能正是來源於二者對抗谷歌因而各取所需。

不論如何,具備「真實世界感知 Input」+「低延遲語音 Output」的超級智能助手,已經成爲下一階段 AI 公司軍備競賽的關鍵。接下來更多大模型公司、雲計算平臺,甚至手機公司、AI 應用開發者都會捲入其中。

01.Project Astra——實時視頻問答,發誓沒有造假

I/O 大會上,谷歌發了一段非常驚豔的 AI 助手演示視頻,這次還了發誓,沒有以任何方式僞造或篡改。

Project Astra 演示視頻|視頻來源:谷歌

Demis Hassabis 說,Project Astra 是自己期待了幾十年的 AI 助手的雛形,是 AI 助手的未來。

Project Astra 是一個實時、多模式的人工智能助手,通過接收信息、記住它所看到的內容、處理該信息和理解上下文細節來與周圍的世界進行交互,它的語音交互比當前形式的 Google Assistant 更自然,沒有延遲或延遲,可以回答問題或幫助你做幾乎任何事情。

演示視頻中,用戶要求 Project Astra 在看到發出聲音的東西時告訴她,助手回答說,它可以看到一個發出聲音的揚聲器。

交互是實時語音進行的,且並沒有「嘿,Google、Gemini」等喚起詞,用戶問 Project Astra 視頻中顯示器上的代碼有什麼作用,Project Astra 沒有一絲延遲地進行了解釋。

Project Astra 記住了一閃而過的眼鏡|圖片來源:谷歌

Project Astra 關於視覺的處理甚至算整場發佈會最大的亮點。「你記得我把眼睛放哪了嗎?」「你的眼鏡在桌子上的紅蘋果旁邊。」Project Astra 甚至通過鏡頭記住了一閃而過的眼鏡,並準確回答出在蘋果旁。這裡可能夾帶了一點「私貨」,這副眼鏡上或許也有 Project Astra。

從演示看,Project Astra 可以很快處理收到的信息,可以通過連續編碼視頻幀並將視頻和語音組合成事件時間線來做到這一點,然後緩存信息以供回憶。谷歌表示,其中一些功能將在今年晚些時候添加到 Gemini 應用程序和其他產品中。

Project Astra 給這個樂隊起名爲金色條紋|圖片來源:谷歌

谷歌稱 DeepMind 團隊還在研究如何最好地將多模態模型整合在一起,以及如何平衡超大型通用模型與更小、更集中的模型。

昨天剛發佈 GPT-4o 的 OpenAI 最重大的突破也在多模態上,看下來似乎昨日重現。最大的一個區別在視覺處理上,是目前 GPT-4o 只能處理靜態圖像,Astra 已經可以處理視頻。

Project Astra 背後的 Gemini 系列大模型能力也有更新。上個月舉辦的 Google Cloud Next 2024 大會上發佈,發佈的 Gemini 1.5 Pro,具有原生音頻理解、系統指令、JSON 模式等,可提供 100 萬長文本能力,宣佈已經向全球開發者開放。

這次宣佈推出的 Gemini 1.5 Flash 模型,解決了關鍵的成本問題。Gemini 1.5 Flash 介於 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之間,主要面向開發者。會上詳細介紹了 Gemini 1.5 Pro 和 Flash 的定價。Gemini 1.5 Flash 的價格定爲每 100 萬個 token 35 美分,這比 GPT-4o 的每 100 萬個 token 5 美元的價格要便宜得多。

Gemini 1.5 Flash|圖片來源:極客公園

谷歌還預告了接下來的動作,宣佈今年晚些時候將模型的現有上下文窗口增加一倍,達到 200 萬個 token。這將使其能夠同時處理 2 小時的視頻、22 小時的音頻、超過 60,000 行代碼或超過 140 萬個單詞。

Gemini 1.5 Pro |圖片來源:極客公園

谷歌去年 12 月發佈的一個預錄演示遭到「造假」質疑,通過剪輯誤導人們高估 Gemini 的視頻處理能力,不過現在,這些能力都是真的了。

02. 基於大模型的 AI 應用生態方面的進展

在這次 I/O 大會上,谷歌基於大模型的 AI 應用生態也有所升級,涵蓋搜索、照片、創作、工具以及工作應用等方方面面。

搜索是谷歌 25 年前的創世產品。在一年前,谷歌表示,搜索的未來是 AI。現在,谷歌搜索中的 AI 真的來了,主打一個——「讓谷歌幫你谷歌。」

谷歌首席執行官桑達爾·皮查伊(Sundar Pichai)在 I/O 大會上宣佈,人工智能生成的搜索摘要,現在被稱爲「人工智能概述」,將在「本週」向美國的所有人推出,更多國家/地區即將推出。

相比從前,AI 搜索可以處理更復雜的問題。谷歌提供了一個例子,也許用戶在尋找一個新的瑜伽工作室,要求這個工作室既要在當地很受歡迎,也要方便通勤,還要有折扣,只需一次搜索就能實現。