李飛飛團隊新作:腦控機器人做家務,腦機接口具備少樣本學習能力

機器之心報道

編輯:Panda W

未來也許只需動動念頭,就能讓機器人幫你做好家務。斯坦福大學的吳佳俊和李飛飛團隊近日提出的 NOIR 系統能讓用戶通過非侵入式腦電圖裝置控制機器人完成日常任務。

NOIR 能將你的腦電圖信號解碼爲機器人技能庫。它現在已能完成例如烹飪壽喜燒、熨衣服、磨奶酪、玩井字遊戲,甚至撫摸機器狗等任務。這個模塊化的系統具備強大的學習能力,可以應對日常生活中複雜多變的任務。

大腦與機器人接口(BRI)堪稱是人類藝術、科學和工程的集大成之作。我們已經在不勝枚舉的科幻作品和創意藝術中見到它,比如《黑客帝國》和《阿凡達》;但真正實現 BRI 卻非易事,需要突破性的科學研究,創造出能與人類完美協同運作的機器人系統。

對於這樣的系統,一大關鍵組件是機器與人類通信的能力。在人機協作和機器人學習過程中,人類傳達意圖的方式包括動作、按按鈕、注視、面部表情、語言等等。而通過神經信號直接與機器人通信則是最激動人心卻也最具挑戰性的前景。

近日,斯坦福大學吳佳俊和李飛飛領導的一個多學科聯合團隊提出了一種通用型的智能 BRI 系統 NOIR(Neural Signal Operated Intelligent Robots / 神經信號操控的智能機器人)。

論文地址:https://openreview.net/pdf?id=eyykI3UIHa

項目網站:https://noir-corl.github.io/

該系統基於非侵入式的腦電圖(EEG)技術。據介紹,該系統依據的主要原理是分層式共享自治(hierarchical shared autonomy),即人類定義高層級目標,而機器人通過執行低層級運動指令來實現目標。該系統納入了神經科學、機器人學和機器學習領域的新進展,取得了優於之前方法的進步。該團隊總結了所做出的貢獻。

首先,NOIR 是通用型的,可用於多樣化的任務,也易於不同社區使用。研究表明,NOIR 可以完成多達 20 種日常活動;相較之下,之前的 BRI 系統通常是針對一項或少數幾項任務設計的,或者就僅僅是模擬系統。此外,只需少量培訓,普通人羣也能使用 NOIR 系統。

其次,NOIR 中的 I 表示這個機器人系統是智能的(intelligent),具備自適應能力。該機器人配備了一個多樣化的技能庫,讓其無需密集的人類監督也能執行低層級動作。使用參數化的技能原語,比如 Pick (obj-A) 或 MoveTo (x,y),機器人可以很自然地取得、解讀和執行人類的行爲目標。

此外,NOIR 系統還有能力在協作過程中學習人類想達成的目標。研究表明,通過利用基礎模型的最新進展,該系統甚至能適應很有限的數據。這能顯著提升系統的效率。

NOIR 的關鍵技術貢獻包括一個模塊化的解碼神經信號以獲知人類意圖的工作流程。要知道,從神經信號解碼出人類意圖目標是極具挑戰性的。爲此,該團隊的做法是將人類意圖分解爲三大組分:要操控的物體(What)、與該物體交互的方式(How)、交互的位置(Where)。他們的研究表明可以從不同類型的神經數據中解碼出這些信號。這些分解後的信號可以自然地對應於參數化的機器人技能,並且可以有效地傳達給機器人。

在 20 項涉及桌面或移動操作的家庭活動(包括製作壽喜燒、熨燙衣物、玩井字棋、摸機器狗狗等)中,三名人類受試者成功地使用了 NOIR 系統,即通過他們的大腦信號完成了這些任務!

實驗表明,通過以人類爲師進行少樣本機器人學習,可以顯著提升 NOIR 系統的效率。這種使用人腦信號協作來構建智能機器人系統的方法潛力巨大,可用於爲人們(尤其是殘障人士)開發至關重要的輔助技術,提升他們的生活品質。

NOIR 系統

這項研究力圖解決的挑戰包括:1. 如何構建適用於各種任務的通用 BRI 系統?2. 如何解碼來自人腦的相關通信信號?3. 如何提升機器人的智能和適應能力,從而實現更高效的協作?圖 2 給出了該系統的概況。

在這個系統中,人類作爲規劃智能體,做的是感知、規劃以及向機器人傳達行爲目標;而機器人則要使用預定義的原語技能實現這些目標。

爲了實現打造通用 BRI 系統的總體目標,需要將這兩種設計協同集成到一起。爲此,該團隊提出了一種全新的大腦信號解碼工作流程,併爲機器人配備了一套參數化的原始技能庫。最後,該團隊使用少樣本模仿學習技術讓機器人具備了更高效的學習能力。

大腦:模塊化的解碼工作流程

如圖 3 所示,人類意圖會被分解成三個組分:要操控的物體(What)、與該物體交互的方式(How)、交互的位置(Where)。

要從腦電圖信號解碼出具體的用戶意圖,難度可不小,但可以通過穩態視覺誘發電位(SSVEP)和運動意象(motor imagery)來完成。簡單來說,這個過程包括:

機器人:參數化的原語技能

參數化的原語技能可以針對不同的任務進行組合和複用,從而實現複雜多樣的操作。此外,對人類而言,這些技能非常直觀。人類和智能體都無需瞭解這些技能的控制機制,因此人們可以通過任何方法實現這些技能,只要它們是穩健的且能適應多樣化的任務。

該團隊在實驗中使用了兩臺機器人:一臺是用於桌面操作任務的 Franka Emika Panda 機械臂,另一臺是用於移動操作任務的 PAL Tiago 機器人。下表給出了這兩臺機器人的原語技能。

使用機器人學習實現高效的 BRI

上述的模塊化解碼工作流程和原語技能庫爲 NOIR 奠定了基礎。但是,這種系統的效率還能進一步提升。機器人應當能在協作過程中學習用戶的物品、技能和參數選擇偏好,從而在未來能預測用戶希望達成的目標,實現更好的自動化,也讓解碼更簡單容易。由於每一次執行時,物品的位置、姿態、排列和實例可能會有所不同,因此就需要學習和泛化能力。另外,學習算法應當具有較高的樣本效率,因爲收集人類數據的成本很高。

該團隊爲此採用了兩種方法:基於檢索的少樣本物品和技能選取、單樣本技能參數學習。

基於檢索的少樣本物品和技能選取。該方法可以學習所觀察狀態的隱含表徵。給定一個觀察到的新狀態,它會在隱藏空間中找到最相似的狀態以及對應的動作。圖 4 給出了該方法的概況。

在任務執行期間,由圖像和人類選擇的「物品 - 技能」對構成的數據點會被記錄下來。這些圖像首先會被一個預訓練的 R3M 模型編碼,以提取出對機器人操控任務有用的特徵,然後再讓它們通過一些可訓練的全連接層。這些層的訓練使用了帶三元組損失的對比學習,這會鼓勵帶有同樣「物品 - 技能」標籤的圖像在隱藏空間中處於更相近的位置。所學習到的圖像嵌入和「物品 - 技能」標籤會被存儲到內存中。

在測試期間,模型會檢索隱藏空間中最近的數據點,然後將與該數據點關聯的「物品 - 技能」對建議給人類。

單樣本技能參數學習。參數選取需要人類大量參與,因爲這個過程需要通過運動意象(MI)進行精準的光標操作。爲了減少人類的工作量,該團隊提出了一種學習算法,可以根據給定的用作光標控制起始點的「物品 - 技能」對來預測參數。假設用戶已經成功定位了拿起一個杯子把手的精確關鍵點,那麼未來還需要再次指定這個參數嗎?最近 DINOv2 等基礎模型取得了不少進展,已經可以找到相應的語義關鍵點,從而無需再次指定參數。

相比於之前的工作,這裡提出的新算法是單樣本的並且預測的是具體的 2D 點,而非語義片段。如圖 4 所示,給定一張訓練圖像(360 × 240)和參數選擇 (x, y),模型預測不同的測試圖像中語義上對應的點。該團隊具體使用的是預訓練的 DINOv2 模型來獲取語義特徵。

實驗和結果

任務。實驗選取的任務來自 BEHAVIOR 和 Activities of Daily Living 基準,這兩個基準能在一定程度上體現人類的日常需求。圖 1 展示了實驗任務,其中包含 16 個桌面任務和 4 個移動操作任務。

下面展示了製作三明治和護理新冠病人的實驗過程示例。

實驗流程。實驗過程中,用戶待在一個隔離房間中,保持靜止,在屏幕上觀看機器人,單純依靠大腦信號與機器人溝通。

系統性能。表 1 總結了兩個指標下的系統性能:成功之前的嘗試次數和成功時完成任務的時間。

儘管這些任務跨度長,難度大,但 NOIR 還是得到了非常鼓舞人心的結果:平均而言,只需嘗試 1.83 次就能完成任務。

解碼準確度。解碼大腦信號的準確度是 NOIR 系統成功的一大關鍵。表 2 總結了不同階段的解碼準確度。可以看到,基於 SSVEP 的 CCA(典型相關分析)能達到 81.2% 的高準確度,也就是說物品選取大體上是準確的。

物品和技能選取結果。那麼,新提出的機器人學習算法能否提升 NOIR 的效率呢?研究者首先對物品和技能選取學習進行了評估。爲此,他們爲 MakePasta 任務收集了一個離線數據集,其中每一對「物品 - 技能」都有 15 個訓練樣本。給定一張圖像,當同時預測出了正確的物品和技能時,就認爲該預測是正確的。結果見表 3。

使用 ResNet 的簡單圖像分類模型能實現 0.31 的平均準確度,而基於預訓練 ResNet 骨幹網絡使用新方法時卻能達到顯著更高的 0.73,這凸顯出了對比學習和基於檢索的學習的重要性。

單樣本參數學習的結果。研究者基於預先收集的數據集將新算法與多個基準進行了比較。表 4 給出了預測結果的 MSE 值。

他們還在 SetTable 任務上展現了參數學習算法在實際任務執行中的有效性。圖 5 給出了控制光標移動方面所節省的人類工作量。