李飛飛提出深度進化強化學習新框架:創建具身智能體學會動物進化法則

新智元報道

來源:外媒

編輯:Yaxin, LQ

【新智元導讀】6億多年的進化中,動物表現出顯著的具身智能,利用進化學習複雜的任務。研究人員稱,AI智能體也可以很快學會動物的這種智能行爲,但目前推動具身認知面臨很多挑戰。最近斯坦福李飛飛教授等人的研究「深度進化強化學習」有了突破,首次證明了「鮑德溫效應」。

智能體/代理(Agents)是人工智能領域的一個主要研究課題,分爲非具身智能和具身智能。

而創建具身智能體是一個非常具有挑戰的任務,所以當前人工智能領域更加關注「非具身認知」。

最近,李飛飛和其他幾名學者提出了一個新的計算框架——深度進化強化學習——Deep Evolutionary Reinforcement Learning (DERL),基於該框架,具身智能體可以在多個複雜環境中執行多個任務。

此外,本研究還首次通過「形態學習」(morphological learning)證明了進化生物學中的「鮑德溫效應」。

1953年,美國古生物學家George Gaylord Simpson創造了術語「鮑德溫效應」,其中提到了美國哲學家和心理學家JM Baldwin的1896年論文中進化的一個新的因素。

在進化生物學中,鮑德溫效應提出,在進化過程的早期世代一生中最初學會的行爲將逐漸成爲本能,甚至可能遺傳給後代。

在過去的6億年裡,進化帶來了無數形態的美:從古老的兩側對稱的昆蟲到各種各樣的動物形態。

這些動物還表現出顯著的具身智能,利用進化學習複雜的任務。

具身認知的研究人員認爲,AI智能體可以很快地學會這種智能行爲,而且它們的形態也能很好地適應環境。

然而,人工智能領域更注重「非具身認知」,如語言、視覺或遊戲。

當AI智能體能夠很好地適應環境時,它們就可以在各種複雜環境中學習控制性任務。然而,由於以下原因,創建這樣的智能體非常具有挑戰性。

這需要在大量潛在模式中進行搜索。通過終身學習評估一個智能體的適應性需要大量的計算時間。

因此,以往的研究要麼是在極其有限的形態學搜索空間中使智能體實現進化,要麼是在給定的人工設計形態學下尋找最優參數。

評估適應性的困難使得以前的研究避免了直接在原始感官觀察的基礎上學習自適應控制器;

學習使用少量參數(≤100)手動設計控制器; 學習預測一種形式的適應性;

模仿拉馬克進化而不是達爾文進化,直接跨代傳遞學習的信息。

此外,以前的研究主要侷限於在地面上移動的簡單任務。

智能體自由度(DoF)比較少 ,或者由多個立方體構成,這就進一步簡化了控制器的學習問題。

三種維度:環境、形態和控制,具身智能體可以執行哪些任務?

斯坦福大學李飛飛和Agrim Gupta,Silvio Savarese,Surya Ganguli研究人員提出的新型計算框架——深度進化強化學習(DERL)可以在環境,形態和控制這三種複雜維度同時擴展創建具身智能體的規模。

DERL爲計算機模擬實驗中的大規模具身智能體創建活動打開了一扇門,這有助於獲得有關學習和進化如何協作以在環境複雜性,形態智能和控制的可學習性之間建立複雜關係的科學見解。

此外,DERL還減少了強化學習的樣本低效性的情況。智能體的創建不僅可以使用更少的數據,而且可以泛化和解決各種新任務。

DERL通過模仿達爾文進化論中錯綜複雜的代際進化過程來搜索形態空間,並通過終生神經學習的智能控制解決複雜任務來評估給定形態的速度和質量。

斯坦福大學教授,論文的作者李飛飛表示,「這項研究不僅提出了一種新的計算框架,即深度進化強化學習(DERL),而且通過形態學習首次證明了達爾文-鮑德溫效應。形態學習對於自然界中的動物進化至關重,現已在我們創建的 AI 智能體中展現」。

在這項研究中創建的具身智能體可以平地(FT),多變地形(VT)和多變地形的非抓握操作(MVT)中執行巡視(patrol)、點導航(point navigation)、避障(obstacle)、探索(exploration)、逃脫(escape)、爬坡(incline)、斜坡推箱子(push box incline)和控球(manipulate ball)等任務。

DERL:用於創建具身智能體的計算框架,Universal aniMAL 形態設計空間

爲了學習,每個智能體僅通過接收低級自我感知和外部感受觀察來感知世界,並通過由深度神經網絡的參數確定的隨機策略選擇其動作。

該隨機策略是通過近端的深度神經網絡的參數策略優化(PPO)學習得到。

通常,DERL允許研究人員在1152個CPU上進行大規模實驗,平均涉及10代進化,搜索和訓練4000種形態,每種形式有500萬智能體與環境的交互(即學習迭代)。

多種形態中進化動力學

該研究可以在並行的異步競賽中訓練288種形態,因此在任何給定時刻,整個學習和演化過程都可以在16小時內完成。

可以理解爲,這是迄今爲止形態進化和RL的最大同時模擬。

爲了克服過去形態學搜索空間表達能力的侷限性,本研究引入了 Universal aniMAL(UNIMAL)設計空間。

本研究的基因型(genotype )是運動樹,它對應於通過電機驅動的鉸鏈連接的3D剛性零件的層次結構。

運動樹的節點由兩種類型的組件組成:代表智能體頭部的球體(樹的根)和代表肢體的圓柱體。

進化通過三種類型的變異算子無性繁殖:

1 通過增加或減少肢體來收縮或生長運動樹

2 改變現有肢體的物理特徵,如長度和密度

3修改四肢之間關節的屬性,包括自由度、旋轉角度限制以及齒輪比

最重要的是,該研究只允許保持兩側對稱的成對變異,這是動物形體構型在進化過程中最古老的特徵(起源於6億年前)。

一個關鍵的物理結果是,每個智能體的質心都位於矢狀面,從而減少了學習左右平衡所需要的控制程度。

儘管有這一限制,但該研究提出的形態設計空間極具表達力,包含大約1018種獨特的智能體形態,至少有10個肢體。

研究小組表明, 利用DERL證明了環境複雜性、形態智能和控制的可學習性之間的關係:

首先,環境複雜性促進了形態智能的進化,可用形態促進新任務學習的能力來量化。

其次,進化快速選擇學得更快的形態,從而使早期祖先一生中較晚學會的行爲在其後代一生中較早表現出來

第三,實驗表明,通過物理上更穩定、能量效率更高的形態的進化,促進學習和控制,鮑德溫效應和形態智能的出現都有一個機理基礎。

https://medium.com/dataprophet/evolutionary-reinforcement-learning-derl-stanfords-li-feifei-and-other-scholars-have-proposed-eb20a2d01087

論文:https://arxiv.org/pdf/2102.02202.pdf