☰

都說谷歌被OpenAI狙擊了，我怎麼覺得它在狙蘋果

今天凌晨，谷歌的 I/O 2024 大會也如約而至了。。。

發佈會是在美國山景城開的，咱差評編輯部也派人去了現場，聽身處前線的同事講，不知道是不是 OpenAI 搶了風頭的緣故，今年現場的氛圍似乎都沒前幾年那麼熱鬧了。

在以前，用萬國來朝形容 I/O 大會都不爲過，而今年很明顯人沒那麼多（不過以前有賣門票，這次沒賣）。

不過這畢竟還是谷歌，在整整快兩個小時的發佈會裡，蹲在屏幕前看的世超，還是被秀了好幾波肌肉。

簡單一句話概括，和昨天的 OpenAI “ 小而美 ” 的春季發佈會比起來， I/O 大會完全就是 “大而全” 。

反正就是各種和 AI 能掛上鉤的東西，他們都來了一遍，從最基礎的大模型，到能生成視頻、音樂的 AI ，再到 TPU 芯片等等。

世超也從裡面挑了幾個比較亮眼的產品，來和大夥說道說道。

首先，世超覺得，昨天 OpenAI 發佈會就是對着今天谷歌狙擊的。。。

谷歌這次重點推出的多模態 AI 助手Project Astra，和昨天 OpenAI 的 GPT-4o 幾乎沒差，都是能和多模態實時交互的 AI 。

把麥克風、攝像頭的權限給 Project Astra 之後，它能眼觀六路、耳聽八方，隨便問啥，它都能第一時間給出答覆。

比如讓它看看辦公室裡有沒有會發出聲音的東西，當鏡頭掃過一個音響時，它立馬就能反應過來。

想再瞭解瞭解音響的構造啥的，也能直接在屏幕上寫寫畫畫，然後提問，整個過程 Project Astra 全都能看懂。

而且因爲有最新的 Gemini在背後撐腰，它的理解能力也是一絕。

隨機找到一個程序員的工位，指着屏幕裡的代碼問是幹啥的， Project Astra 沒反應幾秒就能給出答案，而且還能準確說出用了啥代碼。還有搞個 “ 薛定諤的貓 ” 梗圖，它也能迅速猜出來。

不過它和 GPT-4o 還是有點區別在的，就是說話的語氣語調啥的，沒昨天的 GPT-4o 的人味兒那麼重， Project Astra 稍微有點高冷的味道。

而且 Project Astra 身上還有一個 GPT-4o 沒展示的技能，有記憶，比如在演示裡， Project Astra 能準確記住，鏡頭一掃而過的桌子上，放了一個蘋果。

這對實時交互 AI 來說，算是相當關鍵的一個能力了。不過在前線的同事跟世超說，現在 Project Astra 就只能記一分鐘的事兒，但之後上線的版本肯定能記更多。

但有一說一，就算是世超，也不能把過去一分鐘看到了東西一五一十的全記下來。。。

要不是昨天 GPT-4o 已經搶先亮相了一波， Project Astra 一定會被各路媒體打上 “ 炸裂 ” 、 “ 史詩 ” 、 “ 顛覆 ” 、 “ 改寫歷史 ” 的標籤。

可惜，僅僅是晚了一天，現在大家對 Project Astra 的形容只有一個標籤： “ 跟 GPT-4o 好像 ” 。

真心建議谷歌抓一下內鬼。

除了多模態實時交互的 AI 外，谷歌還一次性放出了各種單獨的多模態 AI，有文生圖的 Imagen 3 ，文生視頻的 Veo ，文生音樂的 Lyria 。

而這些，世超覺得，就是擺明了對標市面上的那些 Sora 、 Suno 之衆。

像是文生視頻的 Veo ，從 1080p 的畫面效果，還有 60 秒的時長，都要和 OpenAI 的 Sora 看齊。

不過谷歌沒學 Sora 用 DiT （ Diffusion Transformer ）架構，而是自己揉了好幾個老模型，像是 GQN 、 DVD-GAN 、 Imagen-Video 、 Phenaki 、 WALT 等等。

從最後生成視頻的效果來看，和 Sora 也確實有的一拼。

谷歌自個兒也說了， Veo 能駕馭各種風格，航拍、延時攝影等等鏡頭語言都能秒懂。。。

有意思的是，谷歌在每個視頻下面都特意標了一行小字：所有視頻均由 Veo 生成，未經修改。

在點誰應該就不用世超多說了吧。。。

而除了上面這些，谷歌還推出了對標 GPT-4 Turbo 等輕量性能大模型的 Gemini 1.5 flash 、對標 llama 3 等開源大模型的 Gemma 2 ，還有 Google 自家的新 TPU 等等。。。世超在這兒就不一一介紹了。

反正看起來，谷歌似乎不願放棄AI 領域裡的每個賽道，想把自己打造成一個 AI 界的六邊形全能戰士。

而更可怕的是，在各個領域裡， Google 相比友商雖然都不一定是最好的，但也並不落後多少。

同時，谷歌的上限和野心，肯定不限於此。因爲谷歌還拿出來些不少其他大廠單打獨鬥，絕對拿不出來的東西。而世超覺得，正是這些東西，有機會能讓谷歌從AI 領域的追趕者，躋身爲領跑者。

因爲谷歌，擁有其他AI 巨頭所沒有的成熟系統與應用生態。

這次 I/O 大會上，谷歌就展示了好幾個這樣的例子。

比如他們先展示了一波 Gemini 和 Google 相冊的結合。記不清自個兒車的車牌號，在 Google相冊裡搜索 “ 查找車牌號 ” ， Gemini 能直接從圖庫裡準確找到車的照片，並把車牌號告訴你。

還有在谷歌 Gmail郵箱裡，你也能讓 AI 幫你查航班信息，在谷歌地圖裡，能讓 AI 幫忙獲取酒店附近的餐廳和旅遊景點，再給計劃相應的日程。

這還沒完，谷歌的老本行搜索這次也上 AI 了，而且一上來就搞了波大的，支持語音、圖片，還有視頻搜索。

比如說唱片機壞了想查查原因，直接鏡頭對準故障位置問就行了， AI 會立馬反應給出答案。

還有壓箱底的膠片機不怎麼會使，同樣拍給它看就行了，不需要自己再絞盡腦汁去形容。

只不過，這次谷歌又在演示上翻車了。。。有媒體扒出，膠片機的那個回答完全就是在胡扯，回答中的一個建議是 “ 把膠捲取出來看看 ” ，而這樣只會讓整卷膠捲直接報廢。。。

不過，這至少說明他們玩兒的就是個 real ，畢竟大模型亂講話這事兒一直存在，而出錯，比造假還是強一些的。

總之，按照谷歌的說法， Gemini 大模型正在全面整合谷歌的那一大家產品中，包括在未來，他們將把AI 直構建到 Android 操作系統的底層之中，準備改寫用戶和手機之間的交互方式。

他們也舉了一些例子，像是用手機看球時，不知道運動員犯沒犯規，圈起來就能問，還有做題時圈一圈就能搜題。

而且顯示答案的時候，它也不會跳轉到別的 AI 軟件裡面去，屬於是把 AI 融到系統最最最底層了。

甚至在打電話的時候， AI 還能實時反詐，能從對話中直接判斷對方是不是騙子，要是有可疑的字眼，立馬會彈窗提示。

其實看到這的時候，世超已經感受到了谷歌做 AI 的優勢，未來 AI 肯定要朝着底層生態去發展。

而作爲一家大企業，谷歌手裡的資源是相當多，而且還有安卓這個大陣營，它能輕易把 AI打入安卓內部，但 OpenAI 要和 iOS 深度結合，估計沒這麼隨心所欲了。

總之這次谷歌的 I/O 大會啥產品都有，但要說出類拔萃，還談不上。不過，在AI 應用集成這一個最直面消費者的維度上看，谷歌還真是目前 AI 領域的集大成者之一。

這一波，去年還被稱作是 AI 圈 “ 仲永 ” 的谷歌，算是漸入佳境了。

不過世超看完谷歌的 I/O 大會，倒覺得他們這次不僅僅要 “ 狙擊 ” OpenAI ，更要把蘋果生態也一起狙了。。。

所以下一回合，到蘋果你了。

都說谷歌被OpenAI狙擊了，我怎麼覺得它在狙蘋果

相關資訊