都說谷歌被OpenAI狙擊了,我怎麼覺得它在狙蘋果

今天凌晨,谷歌的 I/O 2024 大會也如約而至了。。。

發佈會是在美國山景城開的,咱差評編輯部也派人去了現場,聽身處前線的同事講,不知道是不是 OpenAI 搶了風頭的緣故,今年現場的氛圍似乎都沒前幾年那麼熱鬧了。

在以前,用萬國來朝形容 I/O 大會都不爲過,而今年很明顯人沒那麼多( 不過以前有賣門票,這次沒賣 )。

不過這畢竟還是谷歌,在整整快兩個小時的發佈會裡,蹲在屏幕前看的世超,還是被秀了好幾波肌肉。

簡單一句話概括,和昨天的 OpenAI “ 小而美 ” 的春季發佈會比起來, I/O 大會完全就是 “大而全” 。

反正就是各種和 AI 能掛上鉤的東西,他們都來了一遍,從最基礎的大模型,到能生成視頻、音樂的 AI ,再到 TPU 芯片等等。

世超也從裡面挑了幾個比較亮眼的產品,來和大夥說道說道。

首先,世超覺得,昨天 OpenAI 發佈會就是對着今天谷歌狙擊的。。。

谷歌這次重點推出的多模態 AI 助手Project Astra,和昨天 OpenAI 的 GPT-4o 幾乎沒差,都是能和多模態實時交互的 AI 。

把麥克風、攝像頭的權限給 Project Astra 之後,它能眼觀六路、耳聽八方,隨便問啥,它都能第一時間給出答覆。

比如讓它看看辦公室裡有沒有會發出聲音的東西,當鏡頭掃過一個音響時,它立馬就能反應過來。

想再瞭解瞭解音響的構造啥的,也能直接在屏幕上寫寫畫畫,然後提問,整個過程 Project Astra 全都能看懂。

而且因爲有最新的 Gemini在背後撐腰,它的理解能力也是一絕。

隨機找到一個程序員的工位,指着屏幕裡的代碼問是幹啥的, Project Astra 沒反應幾秒就能給出答案,而且還能準確說出用了啥代碼。還有搞個 “ 薛定諤的貓 ” 梗圖,它也能迅速猜出來。

不過它和 GPT-4o 還是有點區別在的,就是說話的語氣語調啥的,沒昨天的 GPT-4o 的人味兒那麼重, Project Astra 稍微有點高冷的味道。

而且 Project Astra 身上還有一個 GPT-4o 沒展示的技能,有記憶,比如在演示裡, Project Astra 能準確記住,鏡頭一掃而過的桌子上,放了一個蘋果。

這對實時交互 AI 來說,算是相當關鍵的一個能力了。不過在前線的同事跟世超說,現在 Project Astra 就只能記一分鐘的事兒,但之後上線的版本肯定能記更多。

但有一說一,就算是世超,也不能把過去一分鐘看到了東西一五一十的全記下來。。。

要不是昨天 GPT-4o 已經搶先亮相了一波, Project Astra 一定會被各路媒體打上 “ 炸裂 ” 、 “ 史詩 ” 、 “ 顛覆 ” 、 “ 改寫歷史 ” 的標籤。

可惜,僅僅是晚了一天,現在大家對 Project Astra 的形容只有一個標籤: “ 跟 GPT-4o 好像 ” 。

真心建議谷歌抓一下內鬼。

除了多模態實時交互的 AI 外,谷歌還一次性放出了各種單獨的多模態 AI,有文生圖的 Imagen 3 ,文生視頻的 Veo ,文生音樂的 Lyria 。

而這些,世超覺得,就是擺明了對標市面上的那些 Sora 、 Suno 之衆。

像是文生視頻的 Veo ,從 1080p 的畫面效果,還有 60 秒的時長,都要和 OpenAI 的 Sora 看齊。

不過谷歌沒學 Sora 用 DiT ( Diffusion Transformer )架構,而是自己揉了好幾個老模型,像是 GQN 、 DVD-GAN 、 Imagen-Video 、 Phenaki 、 WALT 等等。

從最後生成視頻的效果來看,和 Sora 也確實有的一拼。

谷歌自個兒也說了, Veo 能駕馭各種風格,航拍、延時攝影等等鏡頭語言都能秒懂。。。

有意思的是,谷歌在每個視頻下面都特意標了一行小字:所有視頻均由 Veo 生成,未經修改。

在點誰應該就不用世超多說了吧。。。

而除了上面這些,谷歌還推出了對標 GPT-4 Turbo 等輕量性能大模型的 Gemini 1.5 flash 、對標 llama 3 等開源大模型的 Gemma 2 ,還有 Google 自家的新 TPU 等等。。。世超在這兒就不一一介紹了。

反正看起來,谷歌似乎不願放棄AI 領域裡的每個賽道,想把自己打造成一個 AI 界的六邊形全能戰士。

而更可怕的是,在各個領域裡, Google 相比友商雖然都不一定是最好的,但也並不落後多少。

同時,谷歌的上限和野心,肯定不限於此。因爲谷歌還拿出來些不少其他大廠單打獨鬥,絕對拿不出來的東西。而世超覺得,正是這些東西,有機會能讓谷歌從AI 領域的追趕者,躋身爲領跑者。

因爲谷歌,擁有其他AI 巨頭所沒有的成熟系統與應用生態。

這次 I/O 大會上,谷歌就展示了好幾個這樣的例子。

比如他們先展示了一波 Gemini 和 Google 相冊的結合。記不清自個兒車的車牌號,在 Google相冊裡搜索 “ 查找車牌號 ” , Gemini 能直接從圖庫裡準確找到車的照片,並把車牌號告訴你。

還有在谷歌 Gmail郵箱裡,你也能讓 AI 幫你查航班信息,在谷歌地圖裡,能讓 AI 幫忙獲取酒店附近的餐廳和旅遊景點,再給計劃相應的日程。

這還沒完,谷歌的老本行搜索這次也上 AI 了,而且一上來就搞了波大的,支持語音、圖片,還有視頻搜索。

比如說唱片機壞了想查查原因,直接鏡頭對準故障位置問就行了, AI 會立馬反應給出答案。

還有壓箱底的膠片機不怎麼會使,同樣拍給它看就行了,不需要自己再絞盡腦汁去形容。

只不過,這次谷歌又在演示上翻車了。。。有媒體扒出,膠片機的那個回答完全就是在胡扯,回答中的一個建議是 “ 把膠捲取出來看看 ” ,而這樣只會讓整卷膠捲直接報廢。。。

不過,這至少說明他們玩兒的就是個 real ,畢竟大模型亂講話這事兒一直存在,而出錯,比造假還是強一些的。

總之,按照谷歌的說法, Gemini 大模型正在全面整合谷歌的那一大家產品中,包括在未來,他們將把AI 直構建到 Android 操作系統的底層之中,準備改寫用戶和手機之間的交互方式。

他們也舉了一些例子,像是用手機看球時,不知道運動員犯沒犯規,圈起來就能問,還有做題時圈一圈就能搜題。

而且顯示答案的時候,它也不會跳轉到別的 AI 軟件裡面去,屬於是把 AI 融到系統最最最底層了。

甚至在打電話的時候, AI 還能實時反詐,能從對話中直接判斷對方是不是騙子,要是有可疑的字眼,立馬會彈窗提示。

其實看到這的時候,世超已經感受到了谷歌做 AI 的優勢,未來 AI 肯定要朝着底層生態去發展。

而作爲一家大企業,谷歌手裡的資源是相當多,而且還有安卓這個大陣營,它能輕易把 AI打入安卓內部,但 OpenAI 要和 iOS 深度結合,估計沒這麼隨心所欲了。

總之這次谷歌的 I/O 大會啥產品都有,但要說出類拔萃,還談不上。不過,在AI 應用集成這一個最直面消費者的維度上看,谷歌還真是目前 AI 領域的集大成者之一。

這一波,去年還被稱作是 AI 圈 “ 仲永 ” 的谷歌,算是漸入佳境了。

不過世超看完谷歌的 I/O 大會,倒覺得他們這次不僅僅要 “ 狙擊 ” OpenAI ,更要把蘋果生態也一起狙了。。。

所以下一回合,到蘋果你了。