☰

伯克利具身智能圖譜：深度強化學習浪尖上的中國 90 後們

吳翼、高陽、許華哲、陳建宇、湯特、段巖、陳曦、張天浩、羅劍嵐.....深度強化學習與機器人的相映交輝下，是一代英才輩出。

作者 | 賴文昕

編輯 | 陳彩嫺

短短不到一年內，邊塞科技、星動紀元、星海圖和千尋智能接連成立，躋身國內明星創企之列；大洋彼岸，Covariant 和 Anyware Robotics 也正在灣區閃耀。

六傢俱身智能公司，八位 90 後創始人，他們都成長於深度強化學習的搖籃。

作爲最早一批開啓新範式的人，他們探索 AI 和 Robotics 的故事要從踏入伯克利校園說起。

潮起深度強化學習

2016 年春，伯克利計算機系每學期都會變化的 frontier 課開始了。

Frontier 課又稱臨時課，內容不定，老師多變，是爲了探討學術前沿而設——這次，輪到了“深度強化學習”。

走進只有二三十人的教室，吳翼和高陽、段巖（Rocky Duan）、陳曦（Peter Chen）坐在了一起。

講臺上，Pieter Abbeel 和 Sergey Levine 輪番上陣分享最新研究，系統性理論教學與進階內容並不多。此時鼎鼎大名的人工智能實驗室 BAIR 尚未成立，伯克利最火的教授還是做統計、貝葉斯機器學習的 Michael I. Jordan 和 Martin Wainwright 等人。

當時 OpenAI 尚未提出近端策略優化（PPO）算法，其前身 TRPO 算法（由 John Schulman 和兩位講者提出）、DeepMind 剛改進的 DQN（深度強化學習開山之作）以及強化學習經典的策略梯度（Policy Gradient）算法是這門臨時課的重點。

作爲剛入門強化學習的“小白”，吳翼不懂就問，常抱段巖和陳曦的“大腿”，因後兩人正跟着導師 Pieter Abbeel 在 OpenAI 實習，研究強化學習算法的框架 RLLib，天天寫代碼。

此時的吳翼剛結束了一個學期的焦慮與煎熬：博二的他在 Stuart Russell 組研究貝葉斯推理，繼續大三暑研就開始參與的概率編程語言項目。上課之餘，他還在帶本科生參加 DARPA Challenge，項目重且每學季都有彙報。論文九投一中，新方向顆粒無收，反而是本科論文中了。

吳翼

但同年，和吳翼同屆的 Chelsea Finn 與 Sergey Levine、Pieter Abbeel 開發的算法第一次實現了用深度學習做機器人控制，讓機器人 BRETT 學會了將瓶蓋擰到瓶子上、將衣架放在架子上以及用錘子爪端拔出釘子等技能。

儘管圈內鮮有人認可，但伯克利 AI 方向的幾位教授已開始帶着學生試跑強化學習，比如 Trevor Darell 和其學生 Evan Shelhamer（現 DeepMind 科學家）。他們踩了些坑後判斷這個方向可行，於是 2015 年夏天，Pieter Abbeel 開了個大組會，宣佈整組轉向深度強化學習。

目睹隔壁組的轉向，申博時就想做大規模機器學習系統的吳翼也對深度強化學習產生了興趣。最初他選擇伯克利的原因之一，便是被 AMP Lab 孵化出來的 Databricks 及其開源大數據處理工具 Spark 吸引，覺得學術界能做出工業級別的系統很厲害。

但導師 Stuart Russell 對此不太感冒，其研究偏好在貝葉斯推理、邏輯推理，喜歡優雅的算法和 AI 理論，而非工程性較強的項目。

吳翼和 Stuart 討論過一個問題：如何將邏輯推理系統擴展應用到大規模數據處理？

吳翼認爲由下至上（bottom up）的邏輯推理系統比較容易實現，先從簡單情況開始，把整個邏輯系統中容易擴展（scale）的部分遷移到 Spark 上，以便先把算力利用起來實現一些應用進展，然後再慢慢向完整的推理系統和邏輯理論靠近。

Stuart 則支持由上而下（top down），不能一開始就僅僅爲了計算能力去盲目追求擴展性（scalability），應該從更高的起點出發，先構建一個完整的推理系統，再考慮如何使其可擴展。

文無第一，師生二人的理念不同，雖然 Stuart 的觀點從做科學的角度看很有道理，但吳翼對自己的學術偏好也有自己的堅持。該研究導師感興趣的問題，還是做自己最想做的方向？

在糾結中失眠半年後，吳翼想了一個解法：在做組裡課題的同時，多加一個新方向的研究項目。這個想法也獲得了 Stuart 的支持。

2015 年聖誕節假期結束回校，吳翼就去找了 Pieter Abbeel，自我介紹後就開門見山：“I want to do some deep reinforcement learning projects（我想做點深度強化學習的項目）”。

Pieter 欣然同意，讓吳翼從三個項目中自選，吳翼沒多考慮就選了“Value Iteration Networks”這個項目——半年後，他就發表了第一篇深度學習論文，並獲得了 NIPS 2016 最佳論文獎。

2016 年 7 月，吳翼去參加 IJCAI，偶遇剛讀博的 Jakob Foerster（現劍橋教授，多智能體領先者之一），與其聊到智能體之間如何通過交流推測帽子顏色，發現這和自己在清華姚班讀本科時接觸過的博弈論有異曲同工之妙。

同年暑假，他受李磊邀請去字節今日頭條實習，接觸了自然語言處理（NLP），回伯克利後發現他的師兄 Jacob Andreas（現 MIT 教授）開創性地將強化學習與 NLP 結合，能讓 AI 智能體實現指令跟從，在 2D 模擬環境中執行從找到鐮刀、拿起鐮刀、移動到麥田、收割麥子等一系列動作。

這兩項工作對吳翼的啓發很大，他也由此對多智能體學習產生了興趣，並轉向該方向的研究。後來博士畢業後，吳翼加入 OpenAI 也是從事大規模強化學習系統與多智能體的研究。

此外，在伯克利讀博期間，吳翼還到 Facebook 實習，在田淵棟的指導下參與了視覺導航最早的工作之一 House3D。House 3D 是 Facebook 具身智能體研究平臺 Habitat 的重要組成部分，後來其“Habitat 挑戰賽”也成爲了具身智能最熱門的挑戰賽之一。

被吳翼抱大腿的段巖和陳曦，由於在 Pieter Abbeel 組，也最早經歷了伯克利深度強化學習浪潮的崛起。

2011 年，段巖從深圳中學畢業後來到伯克利讀本科，和陳曦是計算機與統計雙專業的同班同學。此外，段巖還多修了數學專業。

段巖人稱“Rocky Fast”，做事效率高、速度快，因爲想創業，和陳曦兩人用三年讀完本科後就創立了一家公司叫 Sellegit，專注於對移動電商平臺的開發與研究，比如以 9 分鐘極速閃拍模式爆火的時尚電商拍賣平臺 PEACH。

段巖 Rocky Duan

這段創業經歷也很快結束，只持續了一年左右。2015 年 8 月，兩人又回到伯克利，一起在 Pieter 組讀博。

段巖與 Pieter 的緣分可以追溯到大三，他發表的第一篇論文就是 Pieter 帶領的鉸接式機器人工作，被機器人頂會 IROS 2013 接收。

讀博後不久，兩人又跟着 Pieter 加入了當時團隊只有 10 人的 OpenAI，研究深度學習、強化學習和模仿學習。可以說，他們是最早接觸深度強化學習的中國青年。

先行者們很快認識到深度強化學習的侷限性：它依賴大量環境互動，且適應性差，一旦環境變化就需要重新訓練，成本高昂。相比之下，人類和動物能夠利用豐富的先驗知識和經驗遷移，快速學習新技能。

爲了解決這個問題，段巖提出將元學習與深度強化學習結合，目標是讓模型學會如何快速學習，並在 2016 年末提出了 RL²算法，陳曦也參與其中。

此時 Transformer 尚未誕生，太過領先的元強化學習還是一個難以理解的概念，不被學術圈看好，因此論文投稿一直沒中。

爲了支持學生，Pieter 乾脆將自己演講 PPT 的第一頁換爲論文介紹，只要有外出分享的機會，就會向在場觀衆介紹，“這是我們今年最重要的工作。”

除了元強化學習開山之作 RL²算法外，在 OpenAI，陳曦還跟着生成對抗網絡（GAN）之父 Ian Goodfellow，參與了提高訓練 GAN 技術的工作，論文引用量超過了一萬。

陳曦 Peter Chen

開創 AI + Robotics

Pieter Abbeel 的成名之作是在斯坦福吳恩達組讀博時用強化學習控制直升機倒飛。2008 年他到伯克利後，除了開拓深度強化學習，還最早將原本壁壘很大的深度學習與機器人領域結合，創立了機器人學習（Robot Learning）實驗室。

機器人學習研究的主要內容，也是如今具身智能領域最核心的方向之一。

前文提到的 TRPO 算法是該方向的一大突破性貢獻，它讓機器人能學習一系列模擬的控制技能，其開源代碼與視頻教程也吸引了越來越多研究人員參與其中，使機器人能完成的任務越來越複雜。

除了 TRPO，Pieter 團隊在該方向還發表了許多引領性的工作，例如 2015 年的泛化優勢估計（GAE）首次實現了 3D 機器人運動學習，2018 年的柔性致動評價（soft-actor critic）能在數小時內教機器人解決真實世界的問題、引用量接近一萬，是迄今爲止最流行的深度強化學習方法之一。

2016 年陳曦和段巖的本科師弟張天浩加入 Pieter 組讀博時，Pieter 組內的研究重點也從強化學習轉向了機器人與 AI 算法的結合。

從左到右：Pieter Abbeel、陳曦、張天浩、段巖

段巖與陳曦提出的 RL² 算法雖能讓機器人從自身經驗中快速學會一項技能，但機器人在實驗室學習的經驗是簡單和人爲的，可學習的技能範圍也有限。

那時候，陳曦和段巖常從伯克利校園自駕 15 分鐘，到奧克蘭唐人街的中餐廳吃飯。一次晚飯，二人聊起 RL² 算法，發現對機器人快速學會技能後具體的下一步是什麼並不清楚。

他們意識到，機器人該掌握哪些技能、應用在哪些具體場景、任務的實施對象、在多長週期內完成、所需硬件有哪些等等問題依舊懸而未決——學術領域的抽象追求和真實行業的實際需求差距太大。

於是他們就產生了一個想法：創業。

“Rocky Fast”再次用三年時間讀完博士，然後拉上還沒畢業的好友陳曦、師弟張天浩，以及對他們無條件支持的導師 Pieter Abbeel，一起離開當時已經近百人規模的 OpenAI，2017 年 9 月成立了一家名爲“Embodied Intelligence”的機器人創業公司。

但很快，因爲名字太直接、與“Embodied AI”的大研究方向幾乎重名，就像用 AGI 給大模型公司命名一樣不合時宜，他們又將公司名改爲了“Covariant AI”。

有了 Pieter 的加入，Covariant AI 在種子輪就融到了 700 萬美元，後續的投資人陣容更是衆星雲集，包括 Geoffrey Hinton、Yann LeCun、李飛飛、Jeff Dean 等人工智能領域的大牛，連比爾·蓋茨也參與了去年的 C 輪融資。

也是在 2017 年前後，伯克利計算機系的幾位大牛一起籌備成立了一個虛擬的組織——伯克利人工智能實驗室（BAIR）。

Jitendra Malik 和 Trevor Darrell 是 BAIR 最初的兩位發起人。他們認爲，伯克利的 AI 雖強，但各自爲戰、沒有形成羣體的影響力，所以希望通過 BAIR 把計算機系的各個團隊聚集起來，整合資源做更大的事。

這個想法獲得系內的一致認可。於是參與 BAIR 的各個組匯聚到同一個大平層裡，寧可吵一點也要讓所有人每天都能交流，無論是老師之間、學生之間還是師生之間都能平等合作。

Trevor 的兩位中國學生高陽、許華哲也是從這時開始，從視覺轉向，開始同 Pieter Abbeel、Sergey Levine 合作研究強化學習相關的課題。

高陽是 2014 年到伯克利讀博，和吳翼同一屆。到伯克利之前，高陽在清華計算機系讀本科，期間曾加入朱軍團隊參與研究貝葉斯推理，以及在谷歌北京跟着原谷歌中國工程院副院長張智威和清華學長李方濤研究 NLP。

高陽

因喜愛機器學習，高陽在四大高校的offer中選擇了伯克利。進入伯克利後，高陽第一年上了許多包括 Michael Jordan 在內的教授的課，發現他們做的研究偏理論，涉及大量數學公式推導而非編程實踐，與自己的預期差距不小。

高陽想做更有現實影響力的工作，於是就找到了 Trevor Darrell。彼時 Trevor 正在研究機器人跨模態的視覺和觸覺交互數據集，讓高陽也參與進來，算是對他的考察。項目完成後，Trevor 對高陽很滿意，高陽就成功進了 Trevor 的組讀博。

機緣巧合下，後來視覺與觸覺也成爲如今機器人最重要的兩個感知模態。高陽的第一個工作也被 CVPR 2015 的“視覺領域數據集的未來” workshop 接收。

Trevor 的風格是鼓勵學生自由探索自己感興趣的方向。他有一個特別知名的中國學生叫賈揚清，就是在這樣包容的研究氛圍中開發出了深度學習框架 Caffe。高陽進組後也先做了一個深度學習網絡結構的工作，並在頭兩年跟着 Trevor 深耕視覺。

除了視覺的感知，Trevor 還鼓勵學生廣開思路，探索可動、可執行的人工智能（Actionable AI），去做跟決策相關的研究。於是 2016 年博二下學期，高陽開始接觸自動駕駛，暑假還到 Waymo 實習，參與了自動駕駛的感知與決策研究。

決策涉及強化學習的知識，但此時高陽只在 frontier 課裡上過 Pieter 的課、沒上手做過項目，而這又跨出了 Trevor 擅長的研究範圍，高陽就同 Trevor 提議，跟大力鑽研 RL 的 Sergey 合作，Trevor 爽快同意，團隊便一起探索彼時仍少人涉足的模仿學習預訓練與強化學習微調相結合的算法。

項目最早的實驗針對人形機器人站立、跑動等控制問題展開，後期再轉移到自動駕駛領域。“本質上自動駕駛就是一個特殊的機器人控制問題，所以最開始研究的很多算法，在機器人和自動駕駛兩個領域都完全通用。”高陽告訴雷峰網。

從技術發展的先後順序看，自動駕駛當時恰好處於人臉識別等純視覺技術與機器人之間，技術未定型又不至於完全不成熟，需解決視覺感知和決策問題，正合高陽的意。

到了博四，高陽參與了由 Trevor 領銜的 Deep Drive 項目。作爲北美最大的自動駕駛研究組織之一，此項目彙集了包括 Sergey、Pieter 在內的十餘位教授，Toyota、Meta 和 Sony 等汽車製造商和上下游公司出資贊助科研，高陽也因此第一次接觸硬件。

在 2017 年，高校裡有一臺完整的自動駕駛汽車還是件新鮮事，因本校空間有限，還得到里士滿灣校區做實驗。高陽負責開發核心算法並將其整合到汽車上驗證效果，以 Sim2Real 的方式測試端到端算法在現實世界中的表現。

當看到自己單獨開發的算法能讓汽車通過簡單的訓練在測試場裡連續行駛三四圈，高陽很驚喜，“當時從下至上把 ROS（機器人操作系統）摸了一遍，深刻理解了硬件實際操作與純仿真環境的不同。”

2016 年，許華哲也從清華畢業來到伯克利 Trevor 組讀博，首個項目便是與高陽合作的端到端自動駕駛課題，被 CVPR 2017 錄取爲 Oral Paper 。

他們發佈了當時最全面、時長最長的自動駕駛數據集 BDDV。

當時 Trevor 傳達的核心理念是，模型的質量取決於數據的質量。基於這一理念，他們利用車載攝像頭收集了數萬小時的視頻數據，幾乎覆蓋了舊金山所有街道，再通過位置、速度、加速度等信息預測車輛動作，同後來模仿學習的範式非常一致。

論文鏈接：https://arxiv.org/pdf/1612.01079

在伯克利，許華哲與高陽、吳翼的關係最好。他們都來自清華，又都對 AI + Robotics 感興趣，三個人有一個微信小羣，經常約着一起吃飯。

許華哲剛進 Trevor 組時，團隊主攻域遷移與視覺-語言兩大方向，Trevor 建議許華哲和高陽去“開荒”彼時熱度飆升的自動駕駛。

但做了幾個自動駕駛的項目後，許華哲認爲視覺技術的本質是識別或生成，而他更希望創造出能做決策、與世界互動並對世界產生影響的智能體——也就是機器人。

所以博一下學期，得益於 BAIR 對跨組合作的鼓勵，許華哲開始跟 Sergey 合作，研究重點也從單純的視覺轉向了強化學習、視覺與機器人結合的方向。

2017 年 6 月，BAIR 博客正式開張，許華哲還成爲了首屆編輯部的五位成員之一。

許華哲

因早期機器人非常昂貴，他們的研究主要以模擬器和遊戲爲主。許華哲和 Sergey 合作過 2.5 個項目，是關於賽車遊戲、超級馬里奧和仿真機器人；還和同樣喜歡打星際爭霸的師兄唐浩然（曾任 Covariant 研究科學家）一起，同 Pieter 合作了一個打星際爭霸的項目。

轉方向後，許華哲最大的感受是個人的研究樂趣提高了，“因爲成果很直觀，比如（強化學習）能讓遊戲打得更好，當然代碼難度也更大。純視覺更多是對神經網絡的調參能力要求較高，強化學習的神經網絡結構相對簡單，但要處理一大堆模擬器等底層的東西。”

2018 年 2 月，許華哲到 Facebook 人工智能研究院（FAIR）實習，和田淵棟、馬騰宇合作。當時馬騰宇剛拿到斯坦福教職 offer，想在 gap year 探索些不同的理論，許華哲就與他合作了機器人的相關內容。

隨着機器人成本逐漸下降，許華哲在 2019 年第二次入職 FAIR 時開始逐漸上手碰真機，真正地從 Actionable AI 轉到具身智能。

當時 Facebook 跟伯克利有個“FAIR BAIR Triangle”項目，雙方合作，學生可以在兩地各有一位導師，許華哲在 Facebook 的導師是 Roberto Calandra（今德累斯頓工業大學教授），在他和 Trevor 的指導下做機器人觸覺相關項目，完成了觸覺數據庫 Pytouch 與讓機械手彈鋼琴的工作。

在觸覺靈巧手項目中，許華哲意識到，真機與仿真間的gap很大：觸覺模擬器不好用。和只需要按下重啓即可做下一次實驗的模擬器不同，真機的某零件損壞就得修理或重買，是個“髒活”，“2020 年疫情自己在家裡拿杯子採數據，觸覺傳感器突然壞了，得等網購的東西到才能修好，節奏馬上就慢了下來。”

Robotics + AI

如果說計算機系作爲深度強化學習搖籃研究的是 AI + Robotics，那麼隔壁的機械工程系則是在盟友的影響下，加速了對 Robotics + AI 的探索。

具體而言，計算機系是從上層感知技術向底層逐步滲透，從 AI 出發，在遇到 AI 的侷限（例如可解釋性不足）時，再整合控制理論等元素；機械工程系則從底層起步向上拓展，側重於模型基礎研究和工業應用，在遇到傳統技術侷限時，引入 AI 技術進行增強。

也是從 2017 年起，兩大專業的交叉內容越來越多。

隨着伯克利 CS 系的 frontier 課逐漸系統化，加入了理論推導和更多細節，其最終在 2017 年正式成爲全球首個深度強化學習（DRL）課程。此時 DRL 在業界纔剛火起來，基本停留在研讀論文的階段，由 Sergey Levine 授課的 CS285 自此成爲該領域的“聖經”。

第一次正式開課，伯克利機械工程系的陳建宇、湯特也來了。兩人在機械系統控制實驗室（MSC Lab）讀博，師從模型預測控制（MPC）的奠基人、美國工程院院士 Masayoshi Tomizuka。

Sergey 備課極認真，深入淺出地從基礎知識到最前沿技術，串起深度強化學習，配上編程作業和仿真器教學，學生們得以兼修理論和實踐。當時還在讀博的 Chelsea Finn 偶爾也來做嘉賓講座，分享自己的第一手研究。在最後的開放式大作業中，陳建宇開發了一種分層強化學習框架，並首創了一個無人車仿真器進行訓練，填補了當時該領域的空白。

2011 年，陳建宇被保送到清華精密儀器系（國內最早從事雙足人形機器人研究的單位之一），前兩年接觸機器人硬件，後兩年關注機器人算法，大三暑研就來到了 MSC Lab 做步態檢測，以類似遙操作的方式提取人腿數據分析雙足步態行走，並在畢設項目設計機器人步態規劃算法，在仿真裡做雙足機器人。

讀博期間，陳建宇主要參與無人駕駛項目。

他的導師 Masayoshi 自 1980 年代起便對無人駕駛技術充滿熱情，曾在加州高速公路上開展無人駕駛車隊列項目，希望通過緊密編隊提高運輸效率。但由於成本過高和技術限制，該項目最終被擱置。

直到 2015 年深度學習技術興起，無人駕駛車輛的感知能力顯著提高，Masayoshi 認爲無人駕駛發展前景光明，於是重啓了相關研究。在此背景下，陳建宇成爲了組內最早做無人車的 PhD 之一。

陳建宇

在研究無人車的同時，陳建宇密切關注着隔壁 CS 系將強化學習與深度學習相結合的研究，特別是在機器人領域的應用。他認爲深度強化學習與控制領域緊密相關，且其解決問題的表示形式與 MPC 在本質上相似。在觀察到這些技術的潛力後，他決定轉向強化學習領域進行深入研究。

博三起，陳建宇在無人駕駛領域進行了端到端的探索，他堅信端到端學習是未來發展的趨勢，並在仿真環境中進行了強化學習和模仿學習的研究，初步嘗試將世界模型的概念融入算法中，儘管受數據和技術所限未能在實車上應用。

即使主要課題和獎學金都來自無人車項目，在驗證學習算法時，陳建宇也使用了其他形態的機器人，如機械臂等，以展示具身智能的普適性。在他看來，無人車也是一種機器人形態，“而且無論是 MPC 還是強化學習，都是適用於不同形態機器人的通用方法。”

儘管在論文層面沒有直接合作，陳建宇同 CS 系在方法和創意的交流十分頻繁，特別是向 Sergey 請教。

比陳建宇大兩屆的湯特則和 Pieter Abbeel 交流更多，還邀請了 Pieter 加入自己的博士委員會提供指導。讀博期間，湯特的研究主要圍繞模仿學習而展開。

工業機器人巨頭髮那科和 MSC Lab 合作緊密，因此湯特在 2013 年從上海交大畢業來到伯克利後，便一直與發那科深度合作，甚至每年暑假都去極少對外界開放的發那科研發總部實習。他讀博的首個課題，便是解決業內公認難題：讓工業機器人根據觸覺反饋，靈活地進行裝配。

“裝配過程很難用精確的數學建模來解析。但人類有一種直覺，在感受到阻力時調整裝配的方向和移動速度，而機器人在需要柔順性的任務上表現不佳，其核心問題在於不具備此直覺，”湯特解釋道，“模仿學習能將這種直覺轉移到機器人身上，且即使在數據匱乏的情況下，也能高效地學習到高維度的信息。”

湯特

在剛體裝配有所突破後，接下來的兩年半時間裡，湯特進一步挑戰更復雜的柔性體裝配。像汽車生產的四大環節中，衝壓、焊接、塗裝都已高度自動化，但總裝環節仍然勞動力密集。一個重要原因就是以線束爲代表的柔性體很難被自動化裝配，涉及實時3D追蹤和運動規劃的問題。

湯特使用模仿學習的策略，通過較小樣本量的人類演示，教會機器人完成複雜的柔性體操作任務，比如在不同的初始狀態下給繩子打結、摺疊衣服，控制人形機器人雙手協作安裝線束。

通過這兩個項目，湯特深刻理解了感知與決策的關係：3D 視覺是第一步，用於獲取物體三維信息並進行初步處理。但關鍵挑戰在於將識別結果與機器人動作決策相結合，而模仿學習通過將視覺信息轉化爲運動指令來填補這一空白。

2018 年湯特畢業，正遇上灣區機器人創業的浪潮，陳曦和段巖想開拓物流倉儲場景，需要擅長工業機器人的夥伴互補，便通過 Pieter 聯繫湯特，想讓他加入 Covariant 一起合作。

湯特考慮再三，覺得自己對工業場景和客戶需求的理解還不夠深刻，決定先到工業界歷練幾年，便婉拒了邀請，來到發那科參與組建先端研究所 (Advanced Research Lab)，成爲其首位成員。

除了 MSC Lab 的二人外，在機械工程系讀博士的羅劍嵐也在探索 Robotics + AI，同時在 Pieter 指導下攻讀計算機系的碩士，最後 Pieter 也成爲了他博士論文的 co-chair。羅劍嵐最關注的是如何讓強化學習在真實世界可行。

同年來到伯克利的羅劍嵐和陳建宇志趣相投，前者做強化學習和真機機器人，後者做強化學習和自動駕駛，兩人常一起約飯，討論強化學習的應用。

2017 年暑假，羅劍嵐參與西門子伯克利分部的項目，和 Pieter、Sergey 開始合作，把深度強化學習應用到工業生產中，學習策略以解決傳統機器人解決不了的問題，比如高精度裝配。

這也是羅劍嵐在強化學習領域的起點，所設計的算法不僅要能進行規劃，還要能實時響應外部變化，並制定策略成功完成裝配。那時，在 MuJoCo 模擬環境中進行強化學習實驗、刷榜、發論文是常規操作，但羅劍嵐卻認爲，當時的強化學習算法性能榜單與現實世界機器人控制問題脫節，並沒有解決實際問題。

幾篇論文下來，強化學習效果有限，羅劍嵐卻決心“一條路走到黑”。2020 年，羅劍嵐畢業，Pieter 兩次邀請他加入 Covariant，但他覺得時機不是特別成熟便婉拒了，想先去谷歌積累經驗。

加入谷歌後，他先後在 DeepMind、Everyday Robot 和 Google X 工作，跟隨 Stefan Schaal。Stefan Schaal 是諾獎搖籃馬普所的創始所長以及機器人強化學習、控制的泰斗人物，聯結整個歐洲機器人圈子。羅劍嵐讀着 Stefan 的論文成長，全面掌握了機器人系統的各個層面，包括從底層動力學到上層控制的所有知識。

羅劍嵐

他在谷歌參與的項目孵化爲工業機器人創企 Intrinsic 後，羅劍嵐決定重返學術界，想在回國找教職前先兼職讀一年博士後，便去詢問了在 Google X 期間合作較多的 Sergey。

先前合作時，Sergey 訓練機器人幾十個小時以完成簡單任務，而羅劍嵐做插拔等工業精密任務的成功率高達 100%，這讓 Sergey 深刻意識到團隊裡需要有人既懂機器人系統又懂 learning，才能將二者結合。Sergey 熱情表示，二人能力互補，提議他全職兩年，羅劍嵐便在 2022 年回到了伯克利。

強化學習應用門檻高，流程易出錯且不穩定，用其解決實際任務一直是 AI 社區想攻克的難點。

因此，在 2023 年 6 月，羅劍嵐萌生了提供一個開源的端到端解決方案的想法，包括強化學習環境和機器人控制器，以便用戶能夠輕鬆下載並使用，就像使用仿真器訓練機器狗一樣簡單。

基於這一願景，羅劍嵐主導與斯坦福、華盛頓大學、谷歌等機構合作，將自己谷歌時期的項目成果在伯克利進一步發展完善，在有視覺信息的情況下，能夠在 20 分鐘內學會一個 100% 成功率的複雜操控策略，效果顯著。

論文鏈接：https://arxiv.org/pdf/2401.16013

在有視覺輸入的情況下，真機強化學習訓練操控策略基本上已被放棄，但在此工作後，大量的企業和高校又重新撿起來這個幾乎被放棄的方案，比如 Toyota 研究所、波士頓動力、北大、斯坦福等等。

一次徒步時，羅劍嵐和 Sergey 聊起仿真，說如果有 100 億美元，是去建世界上最大最好的仿真器，還是去收集世界最大的數據集？

兩人同時脫口而出：數據集。

“仿真對移動（locomotion）很有效，但不是魔法，相對於基於模型的控制，是更好的計算工具。而且移動的模型很簡單，狗是桌子模型、雙足是倒立擺模型，外界的不確定性也有限。”

羅劍嵐認爲，高性能的操作必須建立在真實數據上，“操作的難點在真實世界連續多樣的變化，以及各種難以計算的複雜物理，比如物理接觸，柔性物體，尤其是在涉及視覺輸入的情況下，因此重點是設計出具有高樣本效率的算法，且與硬件和控制器對接無誤。”

具身智能創業

伯克利的具身智能人才似乎天然具有創業的基因：國內，邊塞科技、星動紀元、星海圖和千尋智能在一年內陸續誕生；國外，除了 2017 年的 Covariant，湯特等人於 2023 年 1 月創立的 Anyware Robotics 也早早入局。

湯特在婉拒 Covariant 的邀請後，在發那科先端研究所鍛鍊了四年，作爲創始成員領導 AI Vision 項目從無到有並實現商業化。

隨着對機器人在工業領域的商業化落地的認識加深，湯特覺得自己的研究基礎加上對工業領域的理解已成熟，是時候出來創業了。

兩位 MSC Lab 的同門師弟範永祥、周亦揚也有創業的想法，三人能力互補、一拍即合：湯特擅長模仿學習與 3D 視覺；範永祥擅長運動規劃；周亦揚則專注於自動駕駛。

三方面結合起來，就構成了他們機器人最核心的要素——一套移動機械臂需要自動駕駛的能力來移動底盤，運動規劃的能力來進行手臂抓取，同時還要有視覺和學習的能力來進行引導。

Anyware Robotics 希望打造重型通用機器人, 應用於物流、生產場景。湯特認爲，未來將有兩種主要的通用機器人形態互爲補充，“一種是靈活的人形機器人，擅長輕任務；另一種則是體型更大、更強壯的輪式機械臂，擅長執行重體力任務。我們在打造的是後一種通用機器人。”

作爲“伯克利歸國四子”，吳翼、高陽、許華哲、陳建宇的路徑出奇的一致，都是“清華—伯克利—清華叉院”。

同在 BAIR 的吳翼、高陽、許華哲座位捱得很近，當時 Stuart 組裡只有吳翼一箇中國學生，他便總和 Trevor 組裡同爲零字班的高陽聊天，許華哲來到伯克利後又變成了三人小隊。陳建宇則和許華哲在學生會幹活，時不時一起組織中國留學生的燒烤局。

BAIR 三人常在名爲“葫蘆娃”的小羣里約着幹活後一起去實驗室門口的 food court 吃飯，臨近畢業時也開始討論對於求職的迷茫與焦慮。

作爲首批迴清華叉院任教的“青椒”，吳翼是最早做出決定的。

從 2016 年暑假首次來到北京的字節 AI Lab 到博士畢業，除了 2017 年在 Facebook 外，吳翼每逢放假都會回國到字節實習，還在 2018 年暑假轉到了核心的搜推組。早期的字節讓吳翼看到了 2012 年的 Facebook：員工三千，管理扁平，CEO 愛辦 All Hands（全員溝通大會），每週講 all in 短視頻。

國內互聯網的朝氣蓬勃讓吳翼決定回國，那就留在字節嗎？

2018 年的字節處在從傳統系統轉向深度學習的階段，用大規模神經網絡做搜推是個不錯的機會。但經歷過 2016 年 3000 人的字節，面對 2018 年的字節，吳翼覺得自己有很多想做的技術探索，尤其是強化學習方向，似乎在當時看來很難在一個大廠裡實現，而直接創業又沒有特別好的時機。琢磨一週後，吳翼人生中第一次冒出當老師的念頭，想在自己的課題組做強化學習。

9 月，吳翼聯繫了自己本科畢設老師徐葳，詢問是否有職位空缺，徐葳回覆說有，並囑咐他儘快回國。10 月，吳翼從美國飛回北京參加面試，在飛機上趕完了最後一版 PPT。面試結束後，他進到姚期智院士的辦公室，一拿到合同就問簽字的位置，姚先生笑着告訴他，應該由自己先簽字。就這樣，吳翼成了第一個在姚先生辦公室裡就即刻簽約入職的“青椒”，也是第一個回姚班教書的姚班畢業生。

吳翼認爲，自己在學生時代的特點是涉獵比較廣泛，而強化學習又是一個很通用並且能把很多不同方向整合起立的框架，因此希望作爲教師組建團隊後，同時推進語言注入、多智能體強化學習算法、機器人，最後實現一個完整的人機交互系統。“我的目標不是做一個機器人硬件，而是一個需要承載在硬件上做交互的大腦。”

簽約清華後，吳翼跟姚先生提出在美國業界多待一年半再入職，姚先生爽快答應了。

起初吳翼想去在學術界聲譽好且發表論文多的 Google Brain，面試後谷歌對吳翼也很滿意，不過由於吳翼坦誠只能幹一年，headcount 緊張的谷歌需要花時間走內部流程。

與此同時，曾與吳翼合作過的 Bob McGrew 給他打電話，邀請他下週入職 OpenAI，吳翼希望多等谷歌一個月，Bob 也同意稍後再溝通。2018 年平安夜前一天，Bob 再次聯繫吳翼，問他考慮得如何。吳翼便決定不等谷歌，去 OpenAI，就這樣成爲了多智能體研究組的一員。

在 OpenAI，吳翼加入了智能體玩捉迷藏的項目，讓智能體分成紅藍兩隊進行遊戲。研究顯示，只用簡單的+1/-1獎勵機制和大規模的強化學習，智能體也能自行進化，掌握工具使用，並發展出六種不同的策略和對策。爲了衡量智能體行爲的複雜度，團隊還設計了五種測試，所有通過強化學習訓練的智能體在測試中都達到了最高分。

這意味着，多智能體強化學習加上覆雜的模擬環境可以產生類似人類的智能行爲。此工作一經發布便獲得了大量關注，其官方視頻至今仍是 OpenAI 在 YouTube 播放量的榜首。

2019 年，吳翼一邊在 OpenAI 工作，一邊開始招首批博士生。一人做語言注入，強化學習加語言；一人做強化學習+機器人+控制；還有一人是電子系汪玉老師的博士生，和吳翼聯合指導，做多智能體學習。年末，Bob 在內部評審會時建議吳翼多待兩年，給他升職發股權，畢竟他入職時 OpenAI 還是個沒有股份的 NGO。吳翼卻覺得發股權對自己意義不大，還是得回清華當老師。

回到清華開始自己做機器人後，吳翼深刻體會到硬件之難，“以前伯克利路線是較 AI 驅動而非傳統硬件驅動，剛開始上真機踩了不少坑。”

彼時吳翼的高中與伯克利師兄、時任字節 AI Lab 總監的李磊也想做 AI 機器人，和吳翼一拍即合，決定一起學習、踩坑。吳翼帶着學生李雲飛和字節合作，從頭開始搭建了機械臂、足式機器人等軟硬件設施。經吳翼推薦，李雲飛還到 Covariant 實習，讓段巖幫忙培訓培訓。

最早回國的吳翼也是最早開始商業化嘗試的。2020 年在上海期智研究院成爲項目負責人後，吳翼有了更大的探索空間，在姚先生的大力支持下，吳翼根據自己在 OpenAI 的經驗和自己的認知，想做全棧且和工程結合的研究，於是 2021 年在上海期智研究院組建了專注於大規模強化學習技術研究的科研團隊。

一次和本站的合作，吳翼發現團隊已具備充足的能力，就決定用商業化公司的方式最大化強化學習技術的商業影響力，恰好碰上疫情爆發，封控結束後就遇上了大模型的浪潮。“還是很幸運吧，回顧以往，做的選擇都很隨機。”

2023 年 5 月，吳翼團隊孵化成立了邊塞科技，目標是用強化學習爲更多人創造更好的智能體驗。

在一衆伯克利博士+清華叉院教職的創業者裡，邊塞科技是唯一不涉及機器人硬件的。“算法、應用、多模態融合以及硬件都很重要，”吳翼拆解自己的宏觀願景，“但是人不能追求高而全，還是要先去最好自己擅長的事情，硬件的環節我不是專家，算法、成本、供應鏈都有很多要學習和探索的部分，因此就不在公司裡面商業化運營了，機器人就研究院做技術研究。”

第二個確定入職清華的是高陽。

2018 年，姚期智院士到伯克利招聘，和高陽簡單交流後熱情邀請他回國面試。此前高陽主要在美國面試公司，沒考慮過回國當老師，但既然有面試機會，便決定試一試。

12 月 31 日，高陽在清華進行了兩場學術報告後的當晚，就收到了叉院 offer。火速到手的 offer 出乎了高陽的預料，經過 2 個月的深思熟慮，他決定拒絕 Waymo、Nuro、Aurora 等多家自動駕駛公司的 offer，回國教書。

此時已是高陽博士生活的最後一年，自動駕駛在學術界能做的探索已基本完結，去到清華能做什麼呢？

回到伯克利，高陽參加了 Jitendra Malik 和 Alexei Efros 等多位視覺教授的組會，聊起人的智能如何進化而來的哲學問題。

大家認爲，五指靈巧手能進行復雜物理操作，爲智能的發展提供了基礎，因此猴比貓狗智能；而貓狗之間，狗的羣居特性促進了溝通的發展，使得狗與人社交時強於貓——因此，智能產生的本源，是和現實物理世界產生交互（與環境、與人類、與機器人本身）。

看到具身智能作爲大有可爲且尚處初級階段，很自然地，高陽想到把自己做自動駕駛的技能轉到通用機器人上。

除了鑽研已久的感知外，爲了繼續提高對決策的瞭解，高陽向 Pieter Abbeel 提出自己將去清華任教，計劃做機器人的研究，想先到他的組裡做一年博士後，還分享了很多想做的題目。Pieter 也想把更高級的視覺技術引入強化學習裡，便爽快答應了。

在機器人領域，傳統的輸入並非基於純視覺信息/場景圖像，而是基於對物理世界的低維表徵，例如物體的 XY 座標。高陽與 Pieter 的合作便是針對從高維度的視覺數據中提取對決策有用的信息這項極具挑戰的工作，其中最知名的 Efficient Zero 項目更是將這一研究方向推向了極致，並提高強化學習的樣本效率。

與喜歡在半小時內高強度輸出的 Sergey 不同，Pieter 則更關注宏觀層面，不討論具體技術細節，而根據自己的經驗給出方向是否有前景的反饋。適應了一陣後，高陽逐漸領悟到宏觀指導實際上是優秀導師的理想狀態，科研的品味與獨立性也得到了提升。

2020 年 8 月，高陽入職清華叉院任助理教授，聚焦計算機視覺與機器人結合領域，探索強化學習在機器人領域的應用，讓機器人通過 “看” 操縱周圍事物。

強化學習應用於現實世界需解決數據匱乏和缺少監督信號兩大難題，高陽團隊也基於此開展了一系列工作，比如從2D人類視頻中學習機器人動作策略的 ATM、具身大模型框架 ViLa 和 CoPa 等。

高陽想實現的終極場景是，在物理實體上實現科學研究中的算法，建立一個可以“用眼睛看”並服務於家庭場景的機器人，如告訴機器人“做一杯咖啡”，它就會走到咖啡機前，進行磨豆子、拉花等一系列操作。

去年年中，在看到大模型和具身智能領域的變革後，高陽決定創業。他清楚具身智能產品必須是軟硬件結合的解決方案，自己雖有多年 AI 軟件經驗，但缺乏硬件和商業化背景，就開始尋找既懂硬件也懂機器人落地瓶頸的合夥人。

在共友的牽線下，高陽結識了前珞石機器人 CTO 韓峰濤，後者有十餘年機器人行業經驗，不僅很懂硬件，還做過 1000 多個落地場景，對於各場景的卡點到底在軟件還是硬件非常清楚。而韓峰濤也有創業打算，在找 AI 人才，兩人能力互補、一拍即合，便決定一起創業。

今年 2 月，千尋智能成立，做具身智能基座大模型，是國內少數選擇端到端技術路線的具身智能創企，選擇輪式+雙臂的方案。

入局創業後，高陽對技術路徑與團隊協作也有了新的認識，在最近的兩次美國之行中，高陽還分別和 Deepak 與 Sergey 交流了 Skild AI 和 Physical Intelligence 的發展情況，還聊到了具身大模型的未來，包括其構建方法、面臨的挑戰以及所需的數據量等關鍵話題。

至於比吳翼、高陽小兩屆的許華哲，也在 2022 年夏天回到了清華。

一年前，許華哲從伯克利畢業，來到斯坦福的吳佳俊小組讀博士後。吳佳俊也對機器人很感興趣，彼時組裡正在進行讓機器人捏橡皮泥、學會彈塑性物體操作任務的項目。

過年期間，許華哲和好友包餃子慶祝春節，突然意識到如果讓機器人學會餃子的世界模型，就能使一個機械臂獨立完成包餃子的步驟。於是，幾人搭好工具庫和廚房後，讓機器人隨機選擇工具與麪糰任意互動以採集數據。

加上訓練的工具分類網絡、機器人策略網絡以及視覺反饋作爲新的感知信息輸入，機器人能在有干擾的情況下使用工具包餃子，文章也被機器人學頂會 RSS 2022 所接收。

在斯坦福時，許華哲就拿到了叉院的 offer。剛回國時，許華哲發現具身智能的概念在國內很少人買賬，清華里研究機器人的依舊是以傳統 MPC 等方法爲主的自動化系。

許華哲希望做出可以決策的機器人或智能體，便成立了自己的實驗室，在次年正式命名爲具身智能實驗室，以包含視觸覺的機器人泛化靈巧操作和控制爲長，也探索 DRL 在實際機器人複雜任務中的應用。

許華哲支持學生們去嘗試各種奇思妙想，上課很有熱情，課堂教學評價常排在前 5%，被吳翼稱之爲“經典的伯克利 Style”和“當老師的料”。他選擇加入星海圖的那天，恰逢十一假首日，正帶着組裡的博士生去郊遊。

許華哲合流星海圖其實是個巧合：他看到具身智能的機會後想自己創業，聽聞趙行已開始，便來諮詢心路歷程和時間節點。而星海圖在籌建期，趙行就拉上許華哲和高繼揚一起吃飯，大家聊得投機，想法高度契合，許華哲絲滑加入，負責帶領操作團隊，同樣採取輪式+雙臂的構型方案。

除了“葫蘆娃”三人外，MSC Lab 的陳建宇則在 2020 年末入職叉院。

此時正值疫情爆發，陳建宇在暑假的面試還得線上進行。回國後的前兩年裡，陳建宇除了延續無人駕駛的工作外，也開拓了包括機械臂、輪式、四足等多形態的機器人方向，並在 2022 年的春夏之交開始自己做人形，研究更通用的具身智能。

“無人車的技術和產業格局已初步成型，所以想轉新的大方向。”對陳建宇而言，在新領域做開創性工作吸引力太大，“我本科做過雙足，一直關注人形的動態，當有了自己的課題組和研究資源，並花時間琢磨技術架構後，發現是可行的。”

在實驗室研究雙足人形的陳建宇逐漸發現其具有能改變世界的產業價值，可改變世界不能僅靠在實驗室做 demo ，得藉助更多商業化、產品化手段，而公司能吸納社會資本，招聘、股份激勵等更寬鬆。隨着小米、特斯拉等產業界代表的入局與 ChatGPT 的誕生，陳建宇意識到是時候了——2023 年 8 月，星動紀元創立。

涉獵過包括無人車等多種形態的機器人後，陳建宇認爲，不同形態之間沒有本質上的區別，很多原理是相通的，但若想實現智能，必須一開始就做最終極的人形（雙手和雙腿），“可以在過程中輻射其他形態，但不能從開始就降低天花板。”

在硬件方面，業界對於如何製造高爆發力雙腿和靈巧手尚無統一的解決方案。陳建宇團隊就先從腿部開始，從前兩代的 MPC 逐步升級到 2023 年以強化學習爲核心的步態行走網絡，讓機器人能在雪地、長城、戈壁灘等複雜路面上穩定快速行走。

至於手部設計，陳建宇選擇了一條與衆不同的路徑：縮小腿部關節應用在手部上，以實現更精細的操作和更高的靈活性。因此，他們的靈巧手爲全驅動，擁有超過十個主動自由度，而特斯拉的手部僅有六個。

結語

回到 2017 年伯克利的深度強化學習課堂上，對於幾位中國 90 後而言，熱點方向緊密發生在身邊，可第一時間和作者們面對面交流切磋甚至參與其中，無疑是興奮與享受的。

彼時具身智能（Embodied Intelligence）還不是熱詞，機器人學習（Robot Learning）隨着深度學習範式的興起開啓了新的一頁，在感知有所突破後，AI 和 Robotics 開始雙向奔赴。

他們隱隱感覺到：下個十年的機會來了。

段巖、陳曦、張天浩、吳翼、高陽、許華哲、陳建宇、湯特、羅劍嵐......從深度強化學習出發的伯克利一派，以先驅者之勢火速突破上層感知，讓機器人真正開始具備類人的學習能力。

更重要的是，在得益於 AI 之強勢時，他們也清楚地意識到硬件和底層控制的價值，無論是計算機系還是機械工程系，都在往交叉點靠攏，追求全棧式覆蓋。

最合適衝浪的波浪週期爲 8-16 秒，對於伯克利派系而言，深度強化學習的浪從十年前開始，站在浪尖上的他們，此刻正踏着具身智能的波峰，再望向下一朵浪。

關於具身智能領域的更多精彩羣像故事，歡迎添加作者微信anna042023交流。

更多內容，點擊下方關注：

伯克利具身智能圖譜：深度強化學習浪尖上的中國 90 後們

相關資訊