重新定義自監督學習!LeCun團隊讓MMCR再進一步
新智元報道
編輯:alan
【新智元導讀】近日,來自斯坦福、MIT、紐約大學和Meta-FAIR等機構的研究人員,通過新的研究重新定義了最大流形容量表示法(MMCR)的可能性。
多視圖自監督學習(MVSSL,或稱爲聯合嵌入自監督學習)是一種強大的無監督學習方法。它首先創建無監督數據的多個轉換或視圖,然後以類似監督的方式使用這些視圖來學習有用的表示。
實現MVSSL的具體方法有很多,但大致可以分爲四類:對比、聚類、蒸餾/動量、冗餘減少。
在這衆多的方法中,最大流形容量表示(Maximum Manifold Capacity Representation,MMCR)是與衆不同的一類。
MMCR不明確使用對比,不執行聚類,不利用蒸餾,也不明確減少冗餘,但效果卻可以媲美甚至超越其他領先的MVSSL方法。
而來自斯坦福、MIT、紐約大學和Meta-FAIR等機構的研究人員,正在通過新的研究重新定義這個框架的可能性。
論文地址:https://arxiv.org/pdf/2406.09366
作爲論文作者之一,LeCun也發推表達了自己的觀點:
信息最大化維度對比方法的核心思想,是推動編碼器學習輸入的表示,使其儘可能充分地利用表示空間,就像在有限的畫布上儘可能展現豐富的細節。
爲了更好地理解MMCR,研究人員利用高維概率工具證明了,MMCR可以激勵學習嵌入的對齊和均勻性。
同時,這種嵌入最大化了視圖之間的互信息的下界,從而將MMCR的幾何視角與MVSSL中的信息論視角聯繫起來。
爲了更好地利用MMCR,研究人員對預訓練損失的非單調變化進行數學預測和實驗確認,發現了類似於雙下降的行爲。
此外,研究人員還發現了計算上的scaling law,可以將預訓練損失預測爲梯度步長、批量大小、嵌入維度和視圖數量的函數。
最終,作者證明了這個最初應用於圖像數據的MMCR方法,在多模態圖像文本數據上同樣表現優異。
MMCR
MMCR由紐約大學數據科學中心(NYU Center for Data Science,CDS)的研究人員於2023年提出。
該方法源於神經科學中的有效編碼假說:生物感覺系統通過使感覺表徵適應輸入信號的統計數據來優化,例如減少冗餘或維度。
最初的MMCR框架通過調整「流形容量」(衡量給定表示空間內可以線性分離的對象類別數量的指標)將這一想法從神經科學擴展到了人工神經網絡。
許多MVSSL方法要麼明確源自信息論,要麼可以從信息論的角度來理解,但MMCR不同。
MMCR指出估計高維互信息已被證明是困難的,且逼近互信息可能不會改善表示。MMCR的基礎在於數據流形線性可分性的統計力學表徵。
不過LeCun等人的這篇工作,將MMCR的幾何基礎與信息論原理聯繫起來,探索了MMCR的更深層次機制,並將其應用擴展到了多模態數據,例如圖像文本對。
理論基礎
MMCR源自有關線性二元分類器性能的經典結果。考慮D維度中的P點(數據),具有任意分配的二進制類標籤;線性二元分類器能夠成功對點進行分類的概率是多少?
統計力學計算表明,在熱力學極限下,容量α= 2時會發生相變。MMCR將此結果從點擴展到流形:
最小化MMCR損失意味着最大化平均矩陣的核範數。
直觀上,完美重建意味着同一數據的所有視圖都被網絡映射到相同的嵌入,完美均勻性意味着嵌入均勻分佈在超球面周圍。
具有完美重建和完美均勻性的嵌入實現了儘可能低的MMCR損失
基於對MMCR嵌入分佈的新認識,我們如何將MMCR的統計力學幾何觀點與信息論觀點聯繫起來?
答案是,MMCR激勵表示的最大化,對應於同一數據的兩個視圖的兩個嵌入共享的互信息的下限。
考慮某些輸入數據兩個不同視圖的嵌入之間的互信息。兩個視圖之間的互信息必須至少與兩項之和一樣大:一個嵌入重建另一個的能力,再加上嵌入的熵:
MMCR的雙下降
通過高維概率分析可知,預測最大流形容量表示的預訓練損失,也應該在其預訓練損失中表現出非單調雙下降樣行爲。
(雙下降:測試損失作爲數據總數和模型參數數量的函數表現出非單調變化 )。
然而,本文的分析也表明,這種類似雙下降的行爲應該發生在非典型參數(流形的數量P和維數D)上,而不是數據的數量和模型的參數量。
具體來說,理論預測最高的預訓練誤差應該恰好發生在閾值P = D處,預訓練誤差落在閾值的兩側。
爲了比較不同超參數對的點數P和數據維度D之間的損失,這裡使用MMCR預訓練界限來定義預訓練百分比誤差:
研究人員在STL-10上預訓練了ResNet-18,STL-10是一個與CIFAR-10類似的數據集,但分辨率更高 (96x96x3),並且包含100000張圖像的附加未標記分割。
掃描範圍P:{64, 128, 256, 512, 1024} × D:{64, 128, 256, 512, 1024} × K:{2, 4, 8}(K爲視圖數),結果如上圖所示。
Compute Scaling Laws
在許多MVSSL方法中,更改超參數通常會導致預訓練損失不相稱,從而使運行之間的比較變得困難。
然而,MMCR預訓練百分比誤差產生的數量介於0和1之間,因此可以將不同超參數(P和D)時的訓練情況放在一起比較。
執行這樣的比較會產生有趣的經驗現象:計算MMCR預訓練百分比誤差中的神經縮放定律。
通過繪製在STL-10上預訓練的ResNet-18網絡,我們可以清楚地看到預訓練百分比誤差的冪律縮放與所有點數P 、嵌入維度D和視圖數量K的計算量的關係。
一個關鍵細節是這些神經縮放曲線突出了類似雙下降的行爲:對角線子圖(P = D時)具有較高的預訓練百分比誤差和較小的預訓練百分比斜率。
MMCR與多模態
考慮OpenAI的對比語言圖像預訓練模型CLIP的設置,兩個不同的網絡在圖像文本標題對上進行預訓練,從兩個不同的數據域X和Y獲取數據。
X和Y是配對的,使得X中的每個示例在Y中都有對應的正對,反之亦然。從MMCR角度來看,X和Y可以理解爲同一底層對象的兩個視圖。
因此,最優變換嵌入f(X)和g(Y)應映射到同一空間,並且我們可以利用對MMCR的改進理解來訓練這些最優網絡。
與常見的MVSSL不同,這裡的X和Y在實踐中可能代表極其不同的分佈。
在上圖的圖像-文本對齊實驗中,作者將多模態MMCR應用於DataComp-Small,並將零樣本Imagenet性能與標準CLIP目標進行比較。
可以發現,多模態MMCR在小批量(< 512)下表現優於CLIP。
參考資料:
https://x.com/ylecun/status/1834666512856031537