谷歌 Gemini 與 GPT-4 哪家強?
美國時間12月6日,谷歌正式發佈了 Gemini 大模型。按照谷歌的說法, Gemini 可以像人類一樣理解世界,處理代碼、文字、音頻、圖像和視頻通通不在話下。
Google DeepMind團隊稱,Gemini在32項基準性能測試中的30項上超過了GPT-4。
“我們離新一代人工智能模型的願景越來越近了。”進行完一系列視頻演示後,Google DeepMind產品副總裁Eli Collins(伊萊·柯林斯)對包括第一財經在內的媒體說,這是Google迄今爲止功能最強大、最通用的大模型。
谷歌CEO Sundar Pichai(桑達爾·皮查伊) 評價,Gemini 這一新時代的模型代表了 Google 作爲一家公司在科學和工程方面所做的最大努力之一。他同時提到,這也是 Google 今年早些時候成立 Google DeepMind 時的願景首次實現。
Gemini的各種能力
谷歌稱,Gemini 是一種“原生多模態”AI模型。這意味着它從一開始就經過預先訓練,可以處理用戶基於文本和圖像的提示詞任務,支持文本和圖像的服務。
據悉,Gemini 包含三個不同尺寸,分別是Gemini Ultra、Gemini Pro、Gemini Nano。其中,Gemini Nano主要應用於設備端,Pixel 8 Pro將是第一款搭載 Gemini Nano 的智能手機;Gemini Pro 則適用於在各種任務中擴展,谷歌便計劃用 Gemini Pro 來升級旗下的聊天機器人 Bard,以及包括搜索、廣告、Chrome等在內的更多谷歌產品中。
對於功能最強悍的 Gemini Ultra,谷歌稱目前正在進行信任和安全檢查,以及通過微調和基於人類反饋的強化學習(RLHF)進一步完善模型,預計明年初向開發人員和企業客戶推出。
·理解文本、圖片、音頻
Gemini模型經過海量數據訓練,可以很好識別和理解文本、圖像、音頻等內容,並可以回答複雜主題相關的問題。所以,非常擅長解釋數學和物理等複雜學科的推理任務。
·生成代碼
Gemini可以生成和理解Python、Java、C++和Go等主流代碼。Gemini Ultra在多個編碼基準測試中表現出色,包括HumanEval,這是評估編碼任務性能的重要行業標準。
谷歌還基於Gemini模型開發了專業的代碼模型AlphaCode 2。與前一代相比,AlphaCode 2的性能提升了至少50%以上。
·複雜推理
Gemini的多模態功能,使其能在視覺理解、文本生成等方面有非常強的功能。例如,從數十萬字的小說中整理出重要觀點;
從200頁的金融報告中找出最有價值的內容。這對於金融、科技、醫療的科研和業務人員來說幫助巨大。
支持Bard
目前,谷歌的Bard已經集成了 Gemini Pro 模型,「AIGC開放社區」體驗了一下,其圖片理解和文本生成能力比之前強很多,尤其是代碼生成和審查能力很出色。
谷歌方面表示,Gemini 將通過谷歌產品推向數十億用戶。目前,谷歌計劃通過谷歌雲將 Gemini 授權給客戶,供他們在自己的應用程序中使用。12月13日開始,開發者和企業客戶可以通過谷歌AI Studio或谷歌 Cloud Vertex AI 中的 Gemini API(應用程序編程接口)訪問 Gemini Pro,安卓開發人員可以使用 Gemini Nano 完成構建。
能打敗GPT4嗎?
過去八年,谷歌一直把 AI-first 作爲公司戰略,2016年打敗人類圍棋冠軍的 AlphaGo 便是出自谷歌之手。毫不誇張地說,是谷歌掀起的一股AI浪潮,但現在,它亟需在大模型領域證明自己。
今年4月,Google 將曾經誕生了Tensorflow 與Transformer 的 Google Brain 團隊,和憑藉AlphaGo掀起上一輪AI熱潮、創造了AlphaFold 預測蛋白質摺疊的DeepMind 團隊合併,成立 Google DeepMind,這一團隊也被外界調侃是“AI復仇者聯盟”。
Gemini 被視作是 Google 在AI大模型領域放出的“大招”。Gemini 發佈後,外界最關心的是其對 OpenAI GPT4 的挑戰。
谷歌在MMLU、DROP 、HellaSwag、GSM8K等主流評測中,將 Gemini 與 OpenAI 的 GPT-4 和 GPT-4 V 進行深度評測。
DeepMind的CEO Demis Hassabis稱,谷歌運行了32種完善的基準指標相關測試,對比Gemini和GPT-4這兩個模型,既有諸如多任務語言理解這類廣泛的整體測試,到生成Python代碼這種單一能力的測試。32種基準指標中,Gemini有30項都“遙遙領先”。
在性能測試上,Gemini Ultra在32個大語言模型基準測試中的30箇中超過了當前最優成績,另外在MMLU(大規模多任務語言理解)中,Gemini Ultra的得分爲90%,成爲首個超越人類專家的大模型。
據悉,MMLU通過結合數學、物理、歷史、法律、醫學和倫理學等57個科目,來測試大模型對世界知識和解決問題的能力。此前,GPT-4在該測試中的成績爲86.4%,而人類專家的成績爲89.8%。
而在MMMU基準測試中,Gemini Ultra取得了59.4%的最高得分,GPT-4V的成績爲56.8%,該項測試由跨越不同領域的多模態任務組成。
黛米斯·哈薩比斯稱,在測試圖像基準過程中,Gemini Ultra 在沒有來自圖像字符識別(OCR)系統的幫助下,就超越了此前最先進的模型。這些基準測試凸顯了Gemini的多模態能力,也展現出其具有更復雜推理能力的早期跡象。
“我們將Gemini設計爲原生多模態,它從一開始就針對不同模態進行了預訓練,然後我們使用額外的多模態數據對其進行微調,以進一步提高其效果。”黛米斯·哈薩比斯介紹道,“這幫助Gemini從頭開始就能無縫理解和推理各種輸入,遠遠優於現有的多模態模型,而且其能力在幾乎所有領域都達到了最先進的水平。”
此外,Gemini 具有到目前爲止所有谷歌AI模型中最全面的安全評估,包括對偏見和有害信息的評估。同時,爲了識別內部評估方法中的盲點,谷歌還在與各種外部專家和團隊合作,對Gemini 模型在各種問題上進行壓力測試。
另外值得關注的是,Gemini的訓練是基於谷歌自己的張量處理單元(TPUs)——v4 和 v5e。在這些TPUs上,Gemini比谷歌之前的模型運行速度更快、成本更低。所以除了新模型外,谷歌還宣佈將推出新的TPU系統——Cloud TPU v5p,這是專爲訓練尖端AI模型而設計的,也將用於Gemini的開發。
聖達菲研究所的AI研究員Melanie Mitchell對媒體表示,Gemini基準測試的表現令人印象深刻,這的確說明Gemini是一個非常複雜的人工智能系統,但她指出,自己並沒有明顯感受到Gemini和GPT-4在實際能力上的差距。
Mitchell還指出,Gemini在語言和代碼基準測試上的表現要比在圖像和視頻上表現更好:“多模態基礎模型仍然有很長的路要走,才能在許多任務裡大範圍、可靠地應用。”
斯坦福大學基礎模型研究中心主任Percy Liang也對媒體表示,雖然Gemini具有良好的基準分數,但由於訓練數據中的內容保密,很難知道如何解釋這些數字。
多位科技分析人士認爲,雖然 Gemini 的性能的確優於現有的多模態模型,但它和GPT-4的差距並沒有那麼誇張。從谷歌放出的演示視頻來看,很少有什麼我們在過去一年的AI炒作狂潮裡沒見過的東西。
更大的問題在於,如果以谷歌的算力資源、研發能力和豐富的數據都僅能做到勉強擊敗GPT4,Gemini或許就是以人類目前的技術,能夠打造的大模型的上限了。
責任編輯:張薇