AI智能體學會動物進化法則:李飛飛等提出深度進化RL

機器之心報道

編輯:杜偉、魔王、陳萍

智能體是人工智能領域的一大研究課題,並且也有非具身與具身智能之分。當前,AI 領域更多關注非具身認知,而創建具身智能體非常具有挑戰性。近日,斯坦福李飛飛等學者提出了一種新的計算框架——深度進化強化學習(DERL), 基於該框架創建的具身智能體可以在多個複雜環境中執行多項任務。此外,該研究還通過形態學習首次證明了演化生物學中的鮑德溫效應。

在過去 6 億年中,進化帶來了不同類型的「無盡之形最美」(endless forms most beautiful),從古老的兩側對稱蟲到多種多樣的動物形態。這些動物還展示出了顯著的具身智能(embodied intelligence),利用進化的形態學習複雜任務。具身認知領域認爲,智能體可以快速學得這種智能行爲,它們的形態也能很好地適應環境。然而,AI 領域更多地關注「非具身認知」,如語言、視覺或遊戲等。

當人工具身智能體的形態能夠很好地適應環境,則它們可以在多種複雜環境中學習控制任務,然而創建這類智能體很有挑戰性,原因如下:

這需要在大量可能形態中進行搜索;

通過終身學習評估智能體適應度需要大量計算時間。

因此,之前的研究要麼在極度有限的形態搜索空間中進化智能體,要麼在給出的固定人工設計形態下找出最優參數。評估適應度(fitness)的難度使得先前研究避免直接基於原始感官觀察學習自適應控制器;使用少量參數 (≤ 100) 學習人工設計控制器;學習預測一種形態的適應度;模仿拉馬克進化(Lamarckian)而不是達爾文進化,直接跨代傳輸學得的信息。此外,之前研究主要侷限於平地移動的簡單任務,智能體具備的自由度 (DoF) 較少,或者形體構型由立方體組成,將學習控制器這一問題進一步簡化。

如何克服這些侷限呢?

近日,來自斯坦福大學的研究者 Agrim Gupta、Silvio Savarese、Surya Ganguli 和李飛飛提出了一種新型計算框架——深度進化強化學習 (Deep Evolutionary Reinforcement Learning, DERL),該框架能夠在環境、形態和控制這三種複雜度維度下同時規模化創建具身智能體。

DERL 框架如下圖 1 所示

DERL 爲在計算機模擬實驗執行大規模具身智能體創建活動打開了大門,這有助於獲得對學習和進化如何協作構建環境複雜度、形態智能和控制任務易學性之間複雜關係的科學洞見。此外,DERL 還緩解了強化學習的樣本低效性,創建具身智能體不僅可以使用較少的數據,還能夠泛化解決多種新任務。DERL 通過模仿達爾文進化論中錯綜複雜的跨代進化過程來搜索形態空間,通過終身神經學習來評估給定形態通過智能控制解決複雜任務的速度和質量。

論文作者之一、斯坦福大學教授李飛飛表示:「該研究不僅提出了新型計算框架深度進化強化學習(DERL),並通過形態學習首次證明了達爾文 - 鮑德溫效應。形態學習是自然界動物進化必不可少的技能,現已在我們創建的 AI 智能體中展現。」。

論文地址:https://arxiv.org/pdf/2102.02202.pdf

具身智能體能執行哪些任務?

本研究創建的具身智能體可以在平地 (FT)、多變地形 (VT) 和多變地形中的非抓握操作 (MVT) 三種環境中執行巡視(patrol)、點導航(point navigation)、避障(obstacle)、探索(exploration)、逃脫(escape)、爬坡(incline)、斜坡推箱子(push box incline)和控球(manipulate ball)等任務。

以下三張動圖分別爲具身智能體的避障(上)、斜坡推箱子(中)和控球(下)行爲。

避障。

斜坡推箱子。

控球。

DERL:用於創建具身智能體的計算框架

對於學習,每個智能體通過只接收低層次的自我本體感受和外部感受觀察來感知世界,並通過由深度神經網絡參數確定的隨機策略來選擇其動作(上圖 1b),深度神經網絡的參數通過近端策略優化 (PPO) 學習得到。

總體來說,DERL 允許研究者在 1152 個 CPU 上進行大規模實驗,涉及平均 10 代的進化,搜索並訓練了 4000 種形態,每種形態有 500 萬次智能體 - 環境交互(即學習迭代)。該研究可以在並行異步(parallel asynchronous)比賽中訓練 288 個形態,因此在任意給定時刻,整個學習和進化過程可在 16 小時內完成。據瞭解,這是迄今爲止最大規模的形態進化和 RL 同步模擬。

UNIMAL:UNIversal aniMAL 形態設計空間

爲了克服以往形態搜索空間表達能力的限制,該研究引入了一個 UNIversal aniMAL(UNIMAL)設計空間(上圖 1e)。該研究的基因型(genotype )是一個運動樹,對應於由電機驅動的鉸鏈連接的 3D 剛性部件的層次結構。運動樹的節點由兩種組件類型構成:表示智能體頭部的球體(構成樹的根)和表示肢體的圓柱體。

進化通過三類變異算子進行無性繁殖:1)通過長出或刪除肢體來收縮或生長運動樹(上圖 1d);2)改變現有肢體的物理特性,如長度和密度(上圖 1d);3)修改四肢之間關節的屬性,包括自由度、旋轉角度限制以及齒輪比。

最重要的是,該研究只允許保持兩側對稱的成對變異,這是動物形體構型在進化過程中最古老的特徵(起源於 6 億年前)。一個關鍵的物理結果是,每個智能體的質心都位於矢狀面,從而減少了學習左右平衡所需要的控制程度。儘管有這一限制,但該研究提出的形態設計空間極具表達力,包含大約 1018 種獨特的智能體形態,至少有 10 個肢體。

智能體「變形記」:在複雜環境中進化出不同的形態

該研究稱,DERL 使智能體首次超出了平地移動任務,在 3 種環境中同時進化多種智能體形態和學習控制器,且 3 種環境的難度是逐步增加的:平地 (FT)、多變地形 (VT) 和多變地形中的非抓握操作 (MVT)。DERL 能夠爲這 3 種環境找出成功的形態解。

首先智能體在 FT 環境中移動:

其次智能體在地勢高低不平的 VT 環境中移動:

最後智能體在 MVT 環境中移動並推動箱子:

研究者分析了不同形態描述子在這 3 種環境中的變化(參見下圖 3),發現環境對形態進化有極大影響。

當在所有環境中進化的智能體具備類似的質量和控制複雜度時,VT/MVT 智能體比 FT 智能體在前進方向上移動時間較長,在高度方向上移動時間較短,而 FT 智能體所佔的空間小於 VT/MVT。FT 智能體佔據空間較少的屬性反映了一個常見策略:在身體上間隔較遠地安裝肢體,使之具備完整的運動範圍(參見下圖 2i、7a、8a)。FT 智能體展示出向前倒的移動步態和蜥蜴樣的移動方式(下圖 2i),VT 智能體與 FT 較爲相似,但它具備額外的機制,使步態更穩。最後,MVT 智能體發展出類似鉗或爪的前伸手臂,從而完成將箱子推到目標位置的任務。

環境複雜度衍生出形態智能

上文關於環境對形態進化的影響的分析主要聚焦於不同形態描述子或形態複雜度,但其關鍵挑戰是設計智能體時要確保它能快速適應任意新任務。因而,研究者轉而通過描述一種形態中的具身智能,來了解如何通過組合學習和進化獲得這種能力。具體而言,研究者計算形態對學習大量測試任務的促進作用。這一方法類似於,通過計算潛在神經表示經由遷移學習在下游任務上的性能來評估其質量。

研究者一共創建了一組 8 個任務(下圖 4a),可分爲 3 個領域,分別測試智能體形態的敏捷性(巡視、點導航、避障與探索)、穩定性(逃脫與爬坡)和操縱能力(斜坡推箱子和控球)。每個任務的控制器都是從頭學習,從而確保性能差異均來自形態上的不同。

研究者首先測試了這一假設:在更復雜環境中的進化會帶來更智能的形態,從而在測試任務中性能更好(參見上圖 4b)。結果表明,在 MVT 環境中進化出的智能體性能在 7 項測試任務中優於在 FT 中進化的智能體;在涉及敏捷性和穩定性的 6 個任務中,VT 智能體在 5 項任務裡優於 FT 智能體,在操縱任務中性能相似。

爲了測試學習速度,研究者以 1/5 學習迭代重複了相同實驗(參見上圖 4c),發現 MVT/VT 智能體和 FT 智能體在所有任務中的區別更大了。這些結果表明,在更復雜環境中進化出的形態確實更智能,因爲它們促進智能體更好、更快地學習多種新任務。

證明了更強形式的形態學鮑德溫效應

一個多世紀以前,美國心理學家鮑德溫(Baldwin)推測存在一種替代機制,通過這種機制,最初在早代進化中終身學得的行爲將逐漸在後代(later generation)中成爲本能甚至可能通過基因傳播。表面上,這種鮑德溫效應看起來像拉馬克遺傳(Lamarckian inheritance),但嚴格來說,它源於達爾文主義(Darwinian )。然而,長期以來,生物學家一直認爲鮑德溫效應在複雜環境中可能保持在形態進化和感覺運動學習(sensorimotor learning)的層面。所以,儘管這一猜想廣爲流傳,但迄今爲止尚無研究證明體內或計算機(vivo or in silico)形態進化中的鮑德溫效應。

在模擬中,研究者找到了證明鮑德溫效應在形態學中存在的首個證據,這反映在三個環境中達到前 100 個智能體標準適應度水平(level of fitness)所需訓練時間的快速減少,如下圖 5a 所示。值得注意的是,僅在 10 代之內,平均訓練時間就減少爲原來的一半。研究者提供瞭如何加速學習的示例,如下圖 5d 所示,他們展示了 FT 中進化的智能體在不同代中的學習曲線:

在學習結束時,第 8 代智能體的表現兩倍優於第 1 代智能體,而且可以在後者 1/5 的時間裡達到相同的最終適應度。研究者還注意到他們在模擬中對於快速學習沒有遇到任何顯式的選擇壓力,這是因爲一個形態的適應度僅由學習結束時自身的性能決定。儘管如此,進化依然選擇速度更快的學習者,這樣做也沒有任何選擇壓力。因此,研究者通過證明技能獲取速度的顯式選擇壓力對於鮑德溫效應並不是必要的,實際發現了比以往文獻中猜想的形式更強的鮑德溫效應。

有趣的是,形態學鮑德溫效應的存在可以在未來研究中得到進一步探索,以創建更低樣本複雜度和更高泛化性的具身智能體。

形態智能以及強大鮑德溫效應的機制基礎

接下來,該研究將探索進化如何產生形態智能(上圖 4b,c)以及如何選擇更快的學習者,而無需對學習速度施加任何直接選擇壓力的潛在機制基礎。

該研究假設,按照具身認知(embodied cognition)中的推測,進化發現的形態可以更有效地利用智能體主體與環境之間物理交互的被動動力學(passive dynamics),從而簡化學習控制的問題,它既能在新的環境中實現更好的學習(形態智能),又能跨代實現更快的學習(鮑德溫效應)。任何這樣的智能形態學都可能表現出能量效率和被動穩定性的物理特性,因此該研究對這兩種特性進行了研究。

研究者將能源效率定義爲每單位質量完成一個目標所消耗的能量(見附錄 D)。令人驚訝的是,在沒有能源效率直接選擇壓力的情況下,進化選擇了能效形態解決方案(上圖 5c)。研究證實,能源效率並不是簡單地通過降低肢體密度來實現的(上圖 3e)。

相反,在所有三種環境中,總體質量實際上都在增加,這表明能源效率是通過選擇更有效地利用身體 - 環境相互作用的被動物理動力學的形態來實現的。此外,在任意固定代,能源效率更高的形態表現得更好(下圖 6a),學習速度也更快(下圖 6b)。

同樣地,在所有的三種環境中,隨着時間的推移,進化選擇更被動穩定的形態(見附錄 D),儘管相對於 FT、VT/MVT 中穩定形態的比例更高,這表明在這些更復雜的環境中穩定性的相對選擇壓力更高(上圖 5b)。

因此,隨着進化的推移,能源效率(上圖 5c)和穩定性(上圖 5b)都以一種與學習速度緊密相關的方式提高(上圖 5a)。