☰

零樣本操控機器人，李飛飛團隊新作！

大數據文摘授權轉載自夕小瑤科技說作者 | 智商掉了一地、ZenMoore

這個世界是三維立體的，那麼具身 AI 也應當在 3D 世界中運作。如何利用基礎模型在機器人操作中進行自然場景泛化？斯坦福大學李飛飛團隊的機器人新作來咯~

他們提出的 VoxPoser 從大型語言模型和視覺-語言模型中提取機會和約束，以構建 3D 值地圖，以供運動規劃器使用，用於零樣本合成日常操縱任務的軌跡，從而實現在真實世界中的零樣本機器人操縱。

論文題目:VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

論文鏈接:https://voxposer.github.io/voxposer.pdf

博客地址:https://voxposer.github.io/

本文的研究目標是在給定開放式指令集和開放式對象集的情況下，爲各種操縱任務合成機器人軌跡，即密集的六自由度末端執行器航點序列。大型語言模型被證明擁有豐富的可操作知識，可以通過推理和規劃來提取用於機器人操縱的信息。儘管取得了一定進展，但大多數方法仍依賴於預定義的運動基元來進行與環境的物理交互，這成爲目前研究的主要瓶頸。

由於數據對於泛化至關重要，但機器人數據稀缺且昂貴。因此爲了避免在標記數據上進行策略訓練，VoxPoser 的研究工作中採用 LLM+VLM 的方法，利用生成的代碼來構建 3D 值地圖。隨後，運動規劃器根據這些地圖合成具備六個自由度的動作，且所有這些操作均不需要進行任何訓練或使用基本操作。

如圖 1 所示，VoxPoser 可以在真實世界的操縱任務中零樣本合成軌跡，對於自由形式語言指令的開放集和對象的開放集都能適用。

▲圖1 VoxPoser 從 LLM 中提取與語言相關的機會和約束，並使用 VLM 將它們與感知空間進行關聯，用代碼接口進行操作，而無需對任何組件進行額外訓練

VoxPoser

如圖 2 所示是 VoxPoser 的框架概覽。給定環境的 RGB-D 觀測和語言指令，其中（a）部分爲 LLM 生成代碼與 VLM 交互，產生一系列在機器人的觀測空間中建立的 3D 機會圖和約束圖（統稱爲值圖），然後（b）部分爲組合的值圖作爲運動規劃器的目標函數，用於合成機器人操縱的軌跡。整個過程不涉及任何額外的訓練。

▲圖2 VoxPoser 框架概覽

如下面視頻中所示，根據自由形式的指令和 RGB-D 觀測，LLM 協調感知調用 VLM 和數組操作，爲體素地圖分配連續值，顯示出“何處行動”和“如何行動”。此外，它還對旋轉、速度和夾爪動作進行參數化，以實現完整的 SE(3) 軌跡。

實驗

日常操作任務

作者進行了大量的實驗，在真實世界的日常操縱任務中對 VoxPoser 進行了驗證，包括關節式和可變形物體的操縱。下面視頻的所有結果都是通過零樣本執行進行合成的。

真實領域和模擬領域的實驗結果分別如表 1 和表 2 所示：

▲表1 真實世界領域的平均成功率

▲表2 模擬域中的平均成功率

儘管在接觸豐富的任務中存在一定的侷限性，但 VoxPoser 可以作爲先驗知識，用於從在線交互中高效學習。從下表 3 的實驗結果中可以得到，與沒有先驗知識的探索相比，VoxPoser 能夠在不到 3 分鐘的時間內學會打開各種具有複雜結構的關節物體。這種先驗知識的應用使得學習過程更加高效，並且爲機器人在面對具有複雜結構的物體時提供了更好的操控能力。

▲表3 VoxPoser 進行零樣本合成軌跡

錯誤分類如圖 3 所示，儘管 VoxPoser 依賴於多個組件，但它有效地減少了在指定目標和數值時的錯誤。

▲圖3 VoxPoser 和 Baseline 的錯誤分類比較

如圖 4 是在真實世界環境中可視化組合的 3D 值地圖和軌跡，其中：

頂部行展示了當“感興趣的實體”爲對象或部件時，值地圖如何引導它們朝向目標位置。

底部兩行展示了當“感興趣的實體”爲機器人末端執行器時的任務。最底部的任務涉及兩個階段，也由 LLM 協調完成。

▲圖4 真實世界環境中可視化組合的 3D 值地圖和軌跡

新興的行爲能力

如圖 5 所示，機器人有以下一些比較新穎的能力：

估算物理屬性：給定兩個未知質量的方塊，機器人被要求使用現有工具進行物理實驗，確定哪個方塊更重。

常識性行爲推理：在擺桌子的任務中，用戶可以指定行爲偏好，比如“我是左撇子”，這要求機器人在任務環境中理解其含義。

細粒度語言糾正：對於需要高精度的任務，比如“用蓋子蓋住茶壺”，用戶可以給機器人提供精確的指令，比如“你離目標有1釐米的偏差”。

多步驟視覺程序：在任務“精確地將抽屜打開一半”的情況下，由於物體模型不可用，信息不足，機器人可以根據視覺反饋提出多步驟的操縱策略。首先完全打開抽屜並記錄把手的位移，然後將其關閉到中間位置以滿足要求。

▲圖5 VoxPoser 的新興行爲能力展

如下面視頻中所做的那樣，只需將物體拋擲，由於可以通過視覺反饋實時重新規劃動作，因此 VoxPoser 對干擾具有魯棒性。3D 值地圖始終根據最新的觀測結果進行更新，使機器人能夠從意外錯誤中恢復過來。

由於語言模型的輸出在整個任務過程中保持不變，可以緩存其輸出並使用閉環視覺反饋重新評估生成的代碼，從而實現使用 MPC 進行快速重規劃，這也使得 VoxPoser 對在線干擾具有魯棒性。

小結

本文的作者提出了一個通用的機器人操縱框架 VoxPoser。目前還存在着一定的侷限性，例如：

它依賴於外部感知模塊，在需要整體視覺推理或對細粒度物體幾何形狀理解的任務中具有侷限性。

雖然適用於高效的動力學學習，但仍需要通用的動力學模型來實現具有相同泛化水平的接觸豐富任務。

運動規劃器僅考慮末端執行器軌跡，而整臂規劃也是可行的，可能會是更好的設計選擇。

需要進行手工提示工程來處理 LLM。

儘管依賴外部感知模塊可能限制了整體視覺推理和細粒度物體幾何形狀理解的任務，但最近多模態 LLM 的成功爲 VoxPoser 提供了直接的視覺關聯的可能性，這將進一步提高其性能。此外，對齊和提示方法的應用可以改善合成的值地圖質量，減輕提示工程的工作量。

雖然存在一些限制，但 VoxPoser 作爲一個通用的機器人操縱框架仍然具備巨大的潛力，這也爲未來的機器人操縱研究和發展，以及實現更智能、更靈活、適應性更強的機器人系統指出了新方向。期待在各種不斷更新的大模型加持下，能夠推動機器人系統的相關研究邁出新的一大步。

零樣本操控機器人，李飛飛團隊新作！

相關資訊