生成式AI可能迎來下一個風口:TTT模型
下一代生成式人工智能(AI)的焦點可能是簡稱TTT的測試時間訓練模型。
Transformers 架構是 OpenAI 視頻模型 Sora 的基礎,也是 Anthropic 的 Claude、谷歌的 Gemini 和 OpenAI旗艦模型GPT-4o 等文本生成模型的核心。但現在,這些模型的演進開始遇到技術障礙,尤其是與計算相關的障礙。因爲Transformers 在處理和分析大量數據方面並不是特別高效,至少在現成的硬件上運行是這樣。企業爲了滿足Transformers 的需求建設和擴展基礎設施,這導致電力需求急劇增加,甚至可能無法持續滿足需求。
本月斯坦福大學、加州大學聖地亞哥分校、加州大學伯克利分校和 Meta 的研究人員聯合發佈,他們耗時一年半開發了TTT架構。研究團隊稱,TTT 模型不僅可以處理比 Transformers 多得多的數據,而且不會消耗像Transformers那麼多的計算電力。
爲什麼外界認爲TTT模型相比Transformers更有前途?首先需要了解,Transformers 的一個基本組成部分是“隱藏狀態”,它本質上是一個很長的數據列表。當 Transformer 處理某些內容時,它會將條目添加到隱藏狀態,以便“記住”剛剛處理的內容。例如,如果模型正在處理一本書,隱藏狀態值將是單詞(或單詞的一部分)的呈現形式。
參與前述TTT 研究的斯坦福大學博士後Yu Sun最近對媒體解釋說,如果將Transformer 視爲一個智能實體,那麼查找表、它的隱藏狀態就是 Transformer 的大腦。這個大腦實現了 Transformer 衆所周知的一些功能,例如情境學習。
隱藏狀態幫助 Transformers變得強大,但它也阻礙了Transformers的發展。比如Transformers 剛剛閱讀了一本書,爲了“說”出關於這本書中的哪怕一個字,Transformers 模型都必須掃描整個查找表,這種計算要求相當於重讀整本書。
因此,Sun和TTT的其他研究人員想到,用機器學習模型取代隱藏狀態——就像 AI 的嵌套娃娃,也可以說是一個模型中的模型。與 Transformers 的查找表不同,TTT 模型的內部機器學習模型不會隨着處理更多數據而不斷增長。相反,它將處理的數據編碼,處理爲被稱爲權重的代表性變量,這就是 TTT 模型高性能的原因。無論 TTT 模型處理多少數據,其內部模型的大小都不會改變。
Sun認爲,未來的 TTT 模型可以高效處理數十億條數據,從單詞到圖像、從錄音到視頻。這遠遠超出了現有模型的能力。TTT的系統可以對一本書說 X 個字,卻不需要做重讀這本書 X 遍的複雜計算。“基於 Transformers 的大型視頻模型、例如 Sora,只能處理 10 秒的視頻,因爲它們只有一個查找表‘大腦’。我們的最終目標是開發一個系統,可以處理類似於人類生活中視覺體驗的長視頻。”
TTT 模型最終會取代 transformers嗎?媒體認爲,有這個可能,但現在下結論爲時過早。TTT 模型現在並不是Transformers的直接替代品。研究人員只開發了兩個小模型進行研究,因此目前很難將 TTT 與一些大型 Transformers模型實現的結果進行比較。
並未參與前述TTT研究的倫敦國王學院信息學系高級講師 Mike Cook評論稱,TTT是一項非常有趣的創新,如果數據支持它能提高效率的觀點,那是個好消息,但他無法告訴判斷,TTT是否比現有的架構更好。Cook說,他讀本科的時候,有一位老教授經常講一個笑話:你如何解決計算機學中的任何問題?再添加一個抽象層。在神經網絡中添加一個神經網絡就讓他想起了這個笑話的解答。