☰

迎戰GPT-4V！谷歌PaLI-3視覺語言模型問世，更小、更快、更強

上個月，ChatGPT 正式具備了圖像與語音識別能力。

本月初，微軟更是公佈了 166 頁的多模態版 GPT-4V 的相關文檔，詳細探討了 GPT-4V 的功能和使用情況，這一舉動引起了業界的廣泛關注。

然而，在視覺語言模型的角逐中，谷歌也不甘示弱。

近日，Google Research、Google DeepMind 和 Google Cloud 共同推出了一個更小、更快、更強大的視覺語言模型（VLM）——PaLI-3，該模型與相似的體積大 10 倍的模型相比具有顯著競爭力。

研究人員使用分類目標預訓練的視覺變換器（ViT）模型與對比性預訓練的模型（SigLIP）進行了比較，結果發現，PaLI-3 雖然在標準圖像分類基準上略微表現不佳，但基於 SigLIP 的 PaLI 在各種多模態基準測試中表現出卓越的性能，特別是在定位和文本理解方面。

相關研究論文以“PaLI-3 Vision Language Models: Smaller, Faster, Stronger”爲題，已發表到預印本網站 arXiv 上。

研究團隊認爲，僅有 50 億參數的 PaLI-3 重新點燃了關於複雜 VLM 核心組成部分的研究，可能推動新一代規模更大的模型的發展。

更高分辨率的多模態學習

最近，大型視覺語言模型在其更大的模型中使用預訓練的圖像編碼器，其中一些使用監督分類進行預訓練（如PaLI，PaLI-X，Flamingo，PaLM-E），一些使用預訓練的CLIP編碼器（如BLIPv2，CrossTVR，ChatBridge，還有一些使用自定義多模態預訓練（如 BEiT3，CoCa，SimVLM）。

本次研究的訓練方法包括三個主要組成部分：在網絡規模的圖像文本數據上進行圖像編碼器的對比性預訓練，改進的 PaLI 多模態訓練數據混合以及以更高分辨率進行訓練。

在單模態預訓練階段，圖像編碼器在 Web 上的圖像文本配對上採用 SigLIP 訓練協議進行對比預訓練。研究人員採用了一種基於模型的過濾方法，保留了大約 40% 的配對。圖像編碼器在 224×224 的分辨率下進行訓練。文本編碼器-解碼器是一個 3B UL2 模型，按照混合去噪程序進行訓練。

在多模態訓練階段，研究人員將圖像編碼器與文本編碼器-解碼器結合在一起，形成了 PaLI 模型。這個模型針對多模態任務進行訓練，保持圖像編碼器的凍結狀態，使用原生分辨率（224×224）。

主要的數據混合來自 WebLI 數據集，經過篩選和使用特定的訓練目標。其他元素包括多語言字幕、OCR 處理、跨語言 VQA 和 VQG、物體感知 VQA 以及物體檢測。雖然沒有包括來自視頻的任務或數據，但由於強大的圖像編碼器，PaLI-3 在這些基準上仍然具有競爭力。此外，通過向 WebLI 添加了包含稠密文本和網絡圖像（如海報或文檔）的 PDF 文檔，以及支持 100 多種語言的文本，文檔和圖像理解能力得到了進一步的提高。

在提高分辨率階段，研究通過對整個模型進行微調（解凍圖像編碼器）並使用逐漸增加分辨率的短期課程來提高 PaLI-3 的分辨率，保持在 812×812 和 1064×1064 分辨率處的檢查點。數據混合主要集中在涉及視覺定位文本和物體檢測的部分。

提升圖像理解與文本定位任務

首先，研究人員在 PaLI 框架內進行了對不同的 ViT 模型的有控制的比較。結果發現，雖然 SigLIP 模型的少樣本線性分類性能較差，但當在 PaLI-3 中使用時，SigLIP 模型在"簡單"任務（如字幕和問答）上提供了適度的性能提升，並在更"複雜"的場景文本和空間理解任務（如 TextVQA 和 RefCOCO 變體）上提供了大幅提升。

隨後，研究又在視覺定位文本理解任務中評估了 PaLI-3，這些數據集中的圖像涉及自然圖像、插圖、文檔和用戶界面等各種領域。PaLI-3 在絕大多數字幕和 VQA 基準上，無論是否有外部 OCR 輸入，都取得了最先進的性能。唯一的例外是 AI2D 和 ChartQA，它們不僅需要理解，還需要對圖表進行強大的推理能力。對於這兩個基準，PaLI-3 稍微落後於 PaLI-X。

另外，研究人員還擴展了 PaLI-3 的功能，使其能夠通過語言類似的輸出來預測分割遮罩。實驗結果表明，對於這種類型的定位任務，對比預訓練要比分類預訓練更爲有效。完整的 PaLI-3 模型能夠在指代表達分割方面稍微優於最先進的方法。

在自然圖像理解部分，研究對 PaLI-3 在通用視覺語言理解任務上進行了評估，包括 COCO 字幕和 VQAv2，儘管與最近的 SOTA 模型相比，PaLI-3 的規模要小得多，但在這些基準上表現非常出色。

在視頻字幕和問答部分，研究人員在 4 個視頻字幕基準上對 PaLI-3 模型進行了微調和評估：MSR-VTT、VATEX、ActivityNet Captions 和 Spoken Moments in Time。然後，對 3 個視頻問題解答基準進行了同樣的測試：NExT-QA、MSR-VTT-QA 和 ActivityNet-QA。儘管沒有使用視頻數據進行預訓練，PaLI-3 仍然以較小的模型規模取得了出色的視頻質量保證結果。

總而言之，在本研究中，研究人員深入研究了 VLM 中圖像編碼器的預訓練，特別是 PaLI 類型的模型。研究首次明確比較了分類預訓練和圖像文本（對比性）預訓練這兩種方法，發現後者可以帶來更好和更高效的 VLM，特別是在定位和文本理解任務方面。

另外，研究人員在論文中指出：“這只是 VLM 的一個小方面，我們希望這項研究和其結果能夠激勵對 VLM 訓練的衆多其他方面進行深入探討。”

迎戰GPT-4V！谷歌PaLI-3視覺語言模型問世，更小、更快、更強

相關資訊