☰

斯坦福李飛飛新作登 PNAS：AI 與人類互動才能提高智能水平

作者 | 李梅

編輯 | 陳彩嫺

人類從與他人的互動中學習，而目前的人工智能卻常常只能在與社會隔離的環境中學習。所以當我們把一個智能體放到真實世界中時，它會不可避免地在遇到大量新的數據，無法應對不斷變化的新需求。

如何將智能體從只有一堆書的房間裡“解放”出來，讓它在廣闊的社會情境中學習，是一個新的挑戰。

最近，斯坦福大學計算機系的 Ranjay Krishna、Donsuk Lee、李飛飛、Michael Bernstein 等人針對此問題提出了一種新的研究框架：社會化人工智能（socially situated AI），即智能體通過在現實社會環境中與人的持續互動來學習。論文“Socially situated artificial intelligence enables learning from human interaction”已發表在美國科學院院刊（PNAS）上。

論文地址：https://www.pnas.org/doi/epdf/10.1073/pnas.2115730119

在這項工作中，研究團隊將社會化 AI 形式化爲一個強化學習的過程，即智能體通過從社會互動中獲取的獎勵來學習識別有信息量的問題。在一個視覺問答任務的測試中，與其他智能體相比，社會化智能體識別新視覺信息的性能提高了 112%。

社會化 AI 的強化學習框架

目前，在迭代擴展模型能力時，主動學習是最常用的一個框架。它的目標是優化一系列標註請求以獲取新的數據，並將新數據將用於以儘可能少的請求來提高模型的性能。

主動學習已經被形式化爲強化學習的過程，其中，真正的人類角色被移除，只假設存在一個能爲所有請求提供標籤的“預言機”。

儘管純粹的主動學習方法也可以通過社會環境中的互動來收集新數據，但從用戶角度看，他們並不原意充當“預言機”的角色來做重複提供標籤的勞動，這就打破了主動學習的基本假設。

所以，我們必須探索智能體真正與人交互的學習方法。要開發社會化的 AI，智能體不僅要收集數據來學習新概念，還要學習如何與人互動來收集數據。

而且，智能體必須要在交互學習（interacting to learn）和學習交互（learning to interact）這兩個目標之間進行權衡。這非常具有挑戰性，因爲智能體要遍歷的可能交互空間是巨大的，只有一部分社會交互空間是有用的，並且信息交互空間還會隨着智能體的學習進程而不斷變化。

在強化學習中，我們將可能的交互形式化爲行動空間，將反饋形式化爲獎勵，需要數億次交互才能獲得具有信息量和親社會的交互的子空間，這讓很多研究人員望而卻步。所以，目前從與人類交互中學習的方法，通常只侷限於人工標註或者小的工作空間（如只有幾十個動作的遊戲和仿真環境）。

爲此，研究團隊將社會化的 AI 形式化爲一個迭代強化學習問題。

圖注：社會化 AI 的強化學習框架

其框架描述如下：

一個智能體被放置在社會環境 E=(S，A，P，P0) 當中，它的目標是收集數據，以儘可能少的交互來優化模型的性能；

S 是環境狀態，如對話智能體的對話歷史，或機器人智能體在三維世界中當前位置；

A 是智能體可以發起的與人交互的可能空間，如對話智能體可以詢問的一組語句，或機器人智能體可以執行的一組動作。；

P：S × A → S 是過渡動力學（transition dynamics），如使用過渡函數（transition function）編碼人們對智能體歷史行爲的反應以及環境的變化。；

最後，P0 是初始狀態分佈的概率測度。

總結而言，這樣一個迭代強化學習的過程包括三個重要的方面：改進底層模型、發現社會規範、更新交互策略。它們貫穿着智能體的整個生命週期。

其中，智能體在人們可能會或可能不會做出信息迴應的社會環境中與人進行互動，從而改進底層模型。只有當人的迴應包含對智能體有用的新信息時，迴應纔是有用的。因此，智能體必須與環境中數十萬人的單次交互，從中選擇能夠引發對模型有用的新概念的社會互動。

爲了平衡智能體的交互學習和學習交互兩個目標，我們可以引入知識獎勵（knowledge reward）來引導智能體進行交互以獲得有用的新概念；同時採用交互獎勵（interaction reward）來引導智能體進行符合環境中社會規範的交互。

在使用新概念改進模型的基礎上，智能體會更新其策略，開始學習如何就人們有興趣迴應的新概念提出問題，來改進自身性能還比較差的部分。

從問答互動中改進視覺模型

爲了驗證社會化 AI 框架在計算機視覺中的實用性，作者在照片共享社交網絡應用 Instagram 上部署了一個社會化智能體，它向人們提出自然語言問題，並從人的迴應中提取答案，收集視覺知識。

這種使用自然語言來獲取視覺知識的方法，可以用來測試很多計算機視覺識別任務，如對象檢測（“圖像中有什麼？”）、細粒度識別（“花瓶裡是什麼花？”）、屬性分類（“這張桌子是用什麼材料做的？”）、知識庫推理（“這份食物是素食嗎？”）和常識推理（“這張照片是在冬天拍攝的嗎？”）等等。

在這項工作中，研究團隊設計了一個計算機視覺問答模型，其輸入是一張圖像和相應的自然語言問題，輸出是一個自然語言答案。智能體提出的問題非常多樣，如下圖。

圖注：社會化智能體在社交媒體上發起的互動示例

智能體的目標是從與人的交互中獲得數據，提高模型識別視覺概念的能力。爲了達到這個目標，智能體需要一些“獎勵”。如上文所述的框架，作者引入了知識獎勵和互動獎勵。

知識獎勵衡量模型的在識別任務中的確定性。在剛開始，識別模型不知道如何識別任何概念，但隨着看到的特定概念的增長，它會對自己的判斷更加肯定。比如，如果人們幫助智能體將圖像中的動物識別爲鹿，那麼它的不確定性就會減少。

交互獎勵則引導智能體的行爲符合社區規範。如在社交網絡中，人們更喜歡回答較短的問題、提供事實知識以及迴避含糊不清的問題。所以智能體的每一次交互都會被標記爲積極（產生了新信息）或消極（未獲得新信息），從而被不斷訓練成親社會的。

最後，是如何尋找有用的語言交互問題。這是一個組合性的搜索問題。一種直接的方法可以將智能體的策略設計成一個從圖像到提問的生成模型。隨着模型性能的提升，信息交互的空間會不斷變化，因此組合搜索過程需要反覆重複。

爲了使搜索過程更易於處理，作者使用現有的信息最大化變分自動編碼器來學習現實中人與人交互的表示：通過重新配置策略將輸入圖像映射到表示空間中，並通過設計解碼器從表示空間映射到單詞序列。

更少的交互，更高的識別準確率

在社會化 AI 的框架中，智能體同時有兩個目標：一個發起社交互動，讓人們根據信息數據作出迴應；另一個是通過收集有用的數據來改進其基礎模型。這兩個目標也成了智能體的評估指標。

首先，爲了評估該智能體獲得迴應的能力，我們需要測量對它所提問題的信息迴應率（Informative Response Rate），也就是它收到問題答案（即獲得有用的交互）的交互百分比。較高的信息迴應率意味着對智能體對隱性社會規範有更好的理解，而較低的信息迴應率則意味着人們不給予迴應，這會減慢甚至停止智能體的學習進程。

其次，爲了評估智能體識別新的視覺概念的能力，研究人員使用由 Amazon Mechanical Turk 的註釋器收集的 50104 個社交媒體圖像、問題和答案，構成測試集，來評估視覺識別模型的準確率。

此外，爲了對照和比較使用社會化 AI 框架所涉及的社會化智能體與其他智能體的區別，作者還部署了一個僅使用交互獎勵的人類偏好智能體，一個僅使用知識獎勵的主動學習智能體，以及一個基線智能體。

這個基線智能體不使用預訓練的交互表示作爲動作空間，它允許微調解碼器的參數，使用整個組合詞彙空間作爲動作空間。而且，它同時使用交互獎勵和知識獎勵，並額外添加了語言建模獎勵，以鼓勵它生成語法正確的語言。

所有這些智能體都使用近端策略梯度（proximal policy gradients）進行訓練，而且都使用相同數量的數據進行初始化，並具有相同的策略和解碼器架構。

實驗進行了 8 個月，每個智能體可以發起至少 20 萬次交互。當它們與人交互、並收集新的視覺知識時，信息迴應率和識別準確率的變化結果表明，社會化智能體整體上優於其他智能體。

信息迴應率更高

如下圖，在 236000 次互動中，社會化智能體的信息迴應率從最初的 22% 提高到 33%，相對提高了 50%。相比之下，主動學習和基線智能體在每次迭代後獲得的迴應較少，分別爲 6% 和 12.3%。

圖注：信息迴應率與發起的交互次數的關係。社會化智能體（綠色）和人類偏好的智能體（紫色）都使用交互獎勵，在交互次數提高的同時信息迴應率也更高；其他智能體的信息迴應率隨着交互次數的增加而下降，這是因爲交互會阻礙它們的數據採集。

具體來看，基線智能體在盡力探索所有可能的語言交互組合空間時，不可避免地會產生不連貫的問題，這導致了迴應率的下降，併產生一個惡性循環，從而無法識別有用的交互。迴應率下降到 6% 以後，研究人員將其終止。

主動學習智能體的弊端則在於它會提出更長、更難的問題，無法引起熱人們的興趣。例如，要回答“這些工具是爲左撇子還是右撇子設計的？”這個問題，還得知道有關特定工具的知識以及是否可以用任何一隻手操作。

人類偏好智能體的迴應率最高，但它的提問又太簡單了。比如，它會問“這件襯衫是什麼顏色的？”

可以看到，當前實驗中智能體的最高迴應率是 33%，那麼這一數值還有多少上升空間呢？研究人員又進行了一項實驗，聘請標註人員來人工編輯問題，以增加智能體獲得迴應的可能性。最終，智能體獲得了 37% 的迴應率，這代表了人類從既定社會環境中獲得迴應的平均能力。所以，智能體還有 4% 的社交能力提升空間。

識別準確率更高

再來看這些智能體在使用收集的數據來改進視覺模型方面表現如何。

與其他智能體相比，社會化智能體能使用更少的交互來提高識別準確率。它在 236000 次交互中實現了 39.44% 的模型性能（下圖 B），從中收到了 70000 條迴應（下圖 C）。

圖注：視覺模型性能與智能體發起的交互次數之間的關係。社會化智能體和主動學習智能體（橙色）都使用知識獎勵來收集有用數據，但主動學習智能體本身缺少交互，要達到同樣性能，它需要更多交互。

圖注：視覺模型性能與來自人的迴應數量的關係。社會化智能體需要權衡知識與交互兩種獎勵，其準確率的提高與主動學習智能體相當，而後者只能最大化知識獎勵。

相比之下，主動學習智能體共發起了 274893 次交互，但僅收到 30000 條迴應，並且性能開始飽和，達到 31.4%，迴應率也下降到 12.3%。

這再次表明，在某些社會環境中，純粹的主動學習方法是不可行的。

而人類偏好智能體每次交互雖然都會收到更多回應，但它收集的數據並沒有改善視覺模型。因爲它傾向於收集一小部分問題的答案，因此它的底層視覺模型開始過擬合，最後只生成與時間相關或與顏色相關的輸出。

基線智能體也暴露出它的問題，即不連貫，收集的數據也沒有用。

獲取比傳統數據集更多的新信息

最後，研究團隊對使用社會化智能體收集的數據進行的訓練與使用現有數據集中的數據進行的訓練作了比較。

結果表明，前者的識別準確率遠高於後者，這說明社會化智能體可以獲得傳統數據集中不存在的新信息。

圖注：從社會互動中收集的數據與從傳統數據集中的數據進行訓練的準確率比較。使用來自現有數據集的相同數量的標籤進行訓練，僅將準確度從 11.24% 提高到 17.45%；而使用來自社會互動的數據進行訓練時，準確度從 18.13% 提高到 39.44%。

總結一下，這項研究的重要創新之處在於它提出了一個智能體從與人的交互中學習的形式框架，並通過使用語言交互的視覺模型驗證了該框架的實用性。作者相信，這項工作將有助於更廣泛的交互式智能體的研究。

更多內容，點擊下方關注：

掃碼添加 AI 科技評論微信號，投稿&進羣：

斯坦福李飛飛新作登 PNAS：AI 與人類互動才能提高智能水平

相關資訊