Meta 發佈多模態 Llama 3.2 ,意義非凡

Meta 剛剛發佈了其Llama 大型語言模型家族的新版本。

更新後的 Llama 3.2 引入了多模態,這使得它除了能理解文本,還能理解圖像。

Llama 意義重大——不一定是因爲它比OpenAI 或谷歌的模型更強,儘管它確實能和它們一較高下——而是因爲它是開源的,幾乎任何人都能相對輕鬆地獲取。

此次更新引入了四種不同的模型大小。擁有 10 億參數的模型在M3 MacBook Air上運行得很順暢,配備 8GB 內存,而 30 億參數的模型也能運行,但只是勉強能行。這兩個都是純文本的,但可以在更廣泛的設備上運行並且離線運行。

不過,真正的突破在於Llama 3.2的 110 億和 900 億參數這兩個版本。這些是首批真正的多模態 Llama 模型,針對硬件和隱私進行了優化,比其 3.1 版本的前輩效率高得多。110 億參數的模型甚至可以在一臺不錯的遊戲筆記本電腦上運行。

羊駝的廣泛可用性、最先進的能力和適應性使其與衆不同。它爲 Meta 在 Instagram、WhatsApp、Facebook、雷朋智能眼鏡和 Quest 頭戴設備上的 AI 聊天機器人提供支持,但它也可以在公共雲服務上使用,因此用戶可以在本地下載並運行它,甚至將其集成到第三方產品中。

Groq,這一超快速雲推理服務,是擁有開源模型成爲強大選擇的原因之一。我使用在 Groq 上運行的 Llama 3.1 70b 構建了一個簡單的工具來總結一篇 AI 研究論文 - 它完成總結的速度比我讀標題的速度都快。

一些開源庫允許您在 Mac 上創建一個由 Llama 3.2 或其他模型驅動的類似 ChatGPT 的界面,如果您內存足夠,還包括圖像分析功能。然而,我更進一步,構建了自己的 Python 聊天機器人,它查詢 Ollama API,使我能夠直接在終端中運行這些模型。

Llama 3.2 如此重要的一個原因是它有可能改變人工智能與其環境的交互方式,特別是在遊戲和增強現實等領域。多模態功能意味着 Llama 3.2 可以同時“看到”和“理解”視覺輸入以及文本,爲視頻遊戲中諸如動態的、由人工智能驅動的非玩家角色等可能性創造了條件。

想象一下這樣一個遊戲,其中非玩家角色不僅僅遵循預先編寫的對話,還可以實時感知遊戲世界,智能地響應玩家的動作和環境。例如,一個守衛非玩家角色可以“看到”玩家拿着特定的武器並對此發表評論,或者一個人工智能夥伴可能會以細緻和對話的方式對遊戲環境的變化做出反應,例如突然出現的威脅。

除了遊戲之外,這項技術還可以用於智能設備,如雷朋智能眼鏡和 Quest 頭戴式設備。想象一下,把你的眼鏡對準一座建築物,並向人工智能詢問其建築歷史,或者僅僅通過看一眼就詢問某家餐廳的菜單詳情。

這些用例令人興奮,因爲 Llama 的開源性質意味着開發人員可以爲無數創新應用定製和擴展這些模型,從教育到醫療保健,人工智能在醫療保健領域能通過描述環境來幫助視障用戶。

除了使用 Meta 構建的模型之外,開源意味着公司、組織甚至政府都可以創建自己定製和微調的模型版本。這在印度已經出現,目的是拯救瀕臨滅絕的語言。

Llama 3.2 11b 和 90b 在識別圖像和類似視覺任務方面,與 Anthropic 的較小模型(如 Claude 3 Haiku)以及 OpenAI(包括 GPT-4o-mini)具有相當的競爭力。3B 版本在 150 個基準測試中與微軟和谷歌的類似規模模型(包括 Gemini 和 Phi 3.5-mini)具有相當的競爭力。

雖然這並非直接的基準測試,但我自己讓 1b 模型對我的寫作進行分析並提供改進建議的測試,大致與蘋果智能寫作工具的性能相當,只是缺少方便的上下文菜單訪問功能。

這兩個視覺模型,即 11b 和 90b,能夠執行許多我在 ChatGPT 和 Gemini 上看到的相同功能。例如,您可以給它一張您花園的照片,它能夠提供改進建議甚至種植計劃。

雖說性能不錯,但對 Llama 3.2 而言,這並非其最爲重要的賣點