對話宇樹王興興:做人形機器人要剋制一點,別變成傳統自動化公司
8月21日,2024世界機器人大會在北京亦莊拉開帷幕。無論是從參展商還是觀展人數來看,這都是歷年來熱度最高的一屆大會。這背後,與具身智能概念的爆火相關。
在衆多參展的機器人公司中,來自杭州的宇樹科技頗受關注。
今年5月,這家公司發佈了人形機器人G1。它能夠完成站起、坐下摺疊、舞棍等高難度動作,也具備精準操作物體的能力。更重要的是,G1的售價僅爲9.9萬元,這也是雙足機器人價格首次被打到10萬元以內。
而在近日,宇樹科技又發佈了G1的量產版本,成爲國內少數幾家具備人形機器人量產能力的公司。宇樹科技創始人兼CEO王興興在接受界面新聞採訪時表示,G1的銷量基本符合預期,目前已在科研、教育、工廠等場景落地應用。
他還解答了外界對宇樹科技和人形機器人的諸多疑問,包括降本方法、量產挑戰、商用進展、技術限制,以及人形機器人距離iPhone時刻究竟還有多少年。
採訪中,“幹活”和“通用AI”成爲反覆出現的高頻詞彙。王興興認爲,人形機器人當下的能力還不足以實現真正的“幹活”,但這應是它最具價值的部分。由於人形機器人缺乏像ChatGPT那樣的通用模型,當前行業面臨着極大阻礙。
“我一直有種感覺,人形機器人公司還是要剋制一點,不要把自己做成傳統的自動化公司。”他說。
王興興並不喜歡將今年定義爲人形機器人的商用元年,認爲那還爲時過早,畢竟頭部公司的年出貨量也不過百來臺。但他依然對人形機器人的商用未來持樂觀態度,“如果拿大語言模型來對比,今年就像是ChatGPT誕生的前兩年。”
在他看來,儘管這一領域的技術路線還有許多模糊地帶,但當更多聰明人和資本涌入,轉折點也將很快到來。
以下爲訪談實錄(有不改變原意的刪減及編輯): AI讓做機器人變簡單
問:爲什麼G1可以做到9.9萬的價格?宇樹是如何降本的?
王興興:價格更友好,產品纔有更多人買,才能在全球範圍內推動行業進步。
我們的價格相對比較低,因爲我們做四足機器人已經很多年了,對於機械、成本、生產都有比較多的經驗,而四足和人形機器人很多設計是類似的,這也是我們低價的基礎。宇樹的四足機器人最低賣到9000多元一臺,對比機器人還有點貴。
要把所有的零部件,哪怕一個螺絲釘都設計到極致是非常耗時間的。公司到現在已經成立了8年,有好幾款產品實現了量產,但我們依然很有壓力,因爲每一個零部件都要精細設置,有些技術要求高的零部件都是以0.01毫米起步考慮的。
因爲目前的量不夠,如果我們價格定得太低,對行業和公司都不好。我們還是希望價格相對合理,可能到明年後年出貨量會進一步提升,機器人的能力也會越來越強,價格可以做更好地調整。
問:宇樹是做四足機器人起家的。四足機器人和人形機器人的關係,像是人從爬行到站立起來的過程嗎?
王興興:從技術上或者進化角度,你可以這麼認爲,畢竟靈長類動物本身也是從4條腿進化過來的。機器人也是一樣,爲什麼早年大家做四足機器人更多,因爲它的穩定性、負載、續航能力更強,技術成熟度更高。
過去一兩年,國內很多人形機器人公司都出來了。爲什麼他們做得很快?原因非常簡單,他們用了大量開源的四足機器人技術,包括算法和硬件。
問:對於設計風格是怎麼想的?
王興興:我們希望產品儘量簡潔,無論是外觀還是功能,都不要弄得太複雜,像iPhone一樣。交互的簡潔性是對產品最極致,也是最重要的要求。
問:爲何宇樹和波士頓動力的Atlas都採用了是三指設計?
王興興:目前全球人形機器人的方案不是特別統一,客戶的需求也不一樣,最典型的代表就是手。G1高度大概只有1.3米多,如果我們給他裝了五指,會發現這個手有點太大了,我覺得非常不好看。而三指手大部分產品都能用,抓東西都可以抓得很牢,包括波士頓動力的Atlas在工廠裡幹活,三指就夠用了。出於實用性的角度,大家還是希望機器人的手勢越簡單越好。
目前來說,把物體從這裡抓到那裡,只要一個關節就夠用了,如果要做更精細的事情,比如說拿電烙鐵去焊接,或拿筷子,三個手指也基本夠用。大家可以想象一下,如果自己只有兩三個手指,其實能幹很多活。
AI的加入使得對硬件的自由度、數量、外觀靈活度要求都越來越低,這是一種趨勢。假使你隨便找幾個關節電機和木頭,把它拼在一起,搭出人形,都很可能讓它走起來或者乾點活。
不急於商業化
問:宇樹和其他人形機器人公司最大的不同點是什麼?
王興興:宇樹目前主要做高性能機器人,未來希望做全球最領先的、能給大家產生價值的機器人,無論是四足還是人形機器人,我們都願意去做。形態是非常自由的一件事情。如果說和別的公司不一樣,那就是我們發展時間更長,產品成熟度更好一些。
問:現在宇樹的商業化進展是一個什麼階段?人形機器人在哪些場景落地比較多?
王興興:我們很早就開始做商業化,2016年成立,2017年開始預售接訂單,2018年正式發佈。人形機器人的客戶目前比較雜,有個人用戶、科研教育公司、AI公司、科技公司,還有一些工廠。
問:最近新智元也有產品發佈,他們看上去尤爲在意商業化進展,但宇樹似乎淡定一些?
王興興:我們確實不是特別急,還是希望能把產品做得更好之後再去推商業化,但也不排斥。現在會有一些公司合作,但我們產品太多了,不可能把所有事情都宣傳得很到位,所以大家不太知道。
問:早期業界普遍不看好人形機器人,宇數怎麼看待外界的聲音?對於人形機器人的發展策略,宇樹是有自己明確的發展規劃,還是隨着社會共識變化而改變?
王興興:基本上還是遵循社會共識。雷總說過,順勢而爲,做得太早或太晚,都是非常不好的一件事。
以前有很多投資人問我,你們做不做人形機器人?我斬釘截鐵地說,我不做。我在大一寒假就做過仿生機器人,但產品沒有達到我的預期。當時全球的人形機器人都不是特別理想,性能上不去,也沒辦法到能幹活的階段,所以我當時就決定不做了。
但到2021、2022年,在馬斯克的帶領下,全球開始非常關注人形機器人,尤其是2022年底大模型誕生之後,AI技術產生了明顯的質變,也開始有客戶找上我們。社會的共識足夠了,有人願意買,我們纔會做。
問:很多具身智能公司會把宇樹定位成機器人的“身體”,自己則是機器人的“大腦”,你認可這樣的說法嗎?軟硬件企業未來更多會走向競爭還是合作?
王興興:非常歡迎客戶用我們的硬件,哪怕把我軟件全刪了,我們也非常歡迎,初衷還是希望更多人來用我們的機器人。
定位這個問題,我們過去有跟一些AI公司合作,自己也會做一些AI,如果完全不做的話,大家不知道我們機器人AI效果怎麼樣,總要有一個初始的軟件系統。但我們對AI的投資是比較剋制的,因爲太燒錢了。
機器人肯定是我們的立身之本,同時也歡迎和各種大模型公司合作,特別是願意在我們的產品上標配做得好的大模型,把我們的軟件替換成它的也可以。
問:資本進入之後,會不會跟原有的研發團隊產生路線上的分歧?是否會針對投資方美團的業務推出一些特定機器人?
王興興:我們融資和估值還是比較剋制的,投資方對具體的公司管理不怎麼參與。一件事情能做或是不做,他們不太會有大的意見。美團確實是我們最大的股東,後續也可能有合作的機會。
問:今年國內很多機器人宣佈進廠打工,但大多不具備實際操縱的能力,你怎麼看?宇樹機器人針對工廠端的落地有哪些規劃?
王興興:這的確是一個趨勢,但目前還沒有形成商業閉環,即產生的商業價值是正向的,要比人的成本更低。我們公司目前主要是賣本體的,並不是說一定要做工業,如果科研、教育公司買我們的產品,或者個人用戶買來玩,也完全歡迎。
但工業領域也在推進,比如去做一些生產資料分配或者簡單的搬運,推進的速度沒那麼快。我們對這個行業還是比較有耐心的,不會把自己逼那麼緊,更多還是尊重市場的反應。等到技術和產品大家接觸到一定程度,有一些商業推廣的苗頭了,我們再大規模推廣。
問:未來在研發上的迭代方向是怎樣的?
王興興:成本更加合理,性能和外觀做得更好,用戶體驗才能更好,這是最主要的大方向。再者,要時刻了解全球的技術和產品導向,不能鬆懈,不能覺得今天已經做得不錯了,未來一兩年就不改進了。
機器人離“iPhone時刻”還遠
問:是否認同“今年是人形機器人的商用元年”?
王興興:今年的體量其實很小,即使在商業化的情況下,有些公司最多也就小几十臺這種級別。我個人不是很喜歡這個定義。
問:預計通用機器人領域何時會出現“iPhone時刻”?AI化模型給機器人帶來了哪些明顯的能力提升,目前還存在哪些挑戰?
王興興:還是稍微有點遠。iPhone的出現是綜合性技術的突破,原來已經有了觸摸屏、CPU、交互界面,然後喬布斯提出了終極產品構想,再把這些技術都整合在一起(纔有了iPhone)。
可能現在大家還覺得機器人有點傻,就只能幹一些固定的活,但我覺得今年年底之前,至少全球有一家公司能把通用機器人的AI模型做出來。當然,這個只是接口,也不是“iPhone時刻”。真正的“iPhone時刻”,還是希望在工業或服務業有終端產品的出現,行業的出貨量暴增,可能還要三四年,但不會超過五年。
ChatGPT沒出來之前,大家覺得大語言模型的東西很散,什麼都幹不了,出來以後就不一樣了。我們做的很多機器人也是這樣,可能今天還在地上打滾,突然訓練出一個模型,放上去之後就非常智能,所以我比較樂觀。
問:技術層面,人形機器人目前最大的挑戰在哪裡?
王興興:最大的限制門檻還是AI方面不太夠,機器人AI的能力在全球範圍都沒有達到一個像初代ChatGPT那樣的水平。
模型、AI訓練數據集、AI產品的落地部署、硬件層面都遠遠不夠,但這不是理論上的門檻。工程上就是要把成本做得更低,外觀做得更極致、功能更豐富,這是工程問題,這部分時間是可以預估的。
如果今天有人把AI機器人的通用模型做出來,找我們定製人形機器人,我可以保證年底之前就能完成,做10萬個人形機器人都行。我加大產能和研發效率,投大量的人,甚至通宵都沒問題,因爲硬件本身不是問題,最大的問題還是機器人的AI能力沒有足夠的突破。
當然,硬件也要繼續完善,比如電池容量做更大,減速機的壽命可以做得更長,負載能力更好,靈巧操作的精度更高,視覺感知的分辨率更高,執行速度更快,但這些都不是最大的限制。
問:現階段的大模型可以解決人形機器人哪些技術問題?大模型和AI的應用有望降低機器人的研發成本嗎?
王興興:目前大家說大模型時,多是指大語言模型或者多模態模型,這部分可以給機器人用,但不是全部。機器人要發展下去,單純的大語言模型是不夠的。
例如在工廠裡做事的機器人,完全不用說話,給他佈置一個任務,看一張照片,或者敲一個數字進去,讓他幹活就行了。無論是在工廠擰螺絲,還是在家洗衣做飯,機器人最主要的還是要能幹活。對話的話,一部手機就可以做得很好。
對於幹活這個點,目前的大語言模型可以用到一部分,但更多是要做一個機器人的模型出來,比如把圖像數據、關節指令數據、激光雷達或者別的數據加到裡面。特斯拉最近就在招數據的採集工人,然後去做訓練,待遇也不錯。這和大語言模型沒多大關係,更多是模仿學習。
目前整個體系不太成熟,包括機器人應該在哪裡裝相機、裝幾個、傳感器數據怎麼採,要不要數據傳感器等問題。國外有些流派,他連靈巧手都不想用,只想用個爪子,但有些就希望手指更加靈活,每個手指上有豐富的傳感器。每個人的想法都不太一樣,很難評價哪個路線是錯誤的。
問:你之前提過會考慮在機器人上添加更多的觸覺感知,觸覺的重要性在哪兒?瓶頸是什麼?
王興興:觸覺非常重要。假設一個人全身皮膚的觸覺都喪失了,影響會非常大,可能抓不住東西,走路也會跌倒。但目前的觸覺確實做得非常糟糕,很多機械臂基本上沒有觸覺。這個事情不好做,它要求靈敏度,意味着要部署成百上千個觸點或者觸覺傳感器,萬一磕碰,損壞的概率是非常大的,這也是做觸覺最大的瓶頸和量產的挑戰。如果一臺機器人全身有1000個觸點,那量產一定要保證做得非常好,想想都是令人崩潰的事情。
問:物理交互可以加深模仿和強化學習,但這項技術現在還不成熟,之後可以如何改進?
王興興:我一直覺得物理交互非常重要,要真正讓機器人去生活中幫忙處理事情,如果只用虛擬的數據去訓練是遠遠不夠的。虛擬數據最多達到一種程度,即大概知道要幹什麼,比如往前走,或者把什麼東西放在一起,但要組裝精密零部件這類工作,誤差會比較大,沒辦法完全契合地進行實物操作。還是要非常有必要去做一些實物訓練,把最後的閉環跑通。
問:你多次提到機器人最重要的就是幹活,有沒有什麼具體的期待?
王興興:幹活也分好幾個階段,當下的AI可以做一些模仿學習的措施,如果是固定工位,比如說把一個電池從這裡拿到那裡,全球很多公司都能做,成功率基本上接近100%。
更進一步的話,還是希望它能在工廠裡做更復雜一點的事情。比如拆裝零部件,或者做一些農業相關的工作,就不是簡單的抓取,這件事明後年基本就可以做了。
終極階段,希望真的非常通用,比如隨便給一個人形機器看一張照片或者說一下,它就可以組裝產品或者整理桌子,即使它完全沒見過桌子原本長什麼樣。
最主要的還是AI軟件去發力。AI軟件沒有突破,硬件做得再好也不行。我一直有個感覺,現在人形機器人需要剋制一下,不要把自己做着做着變成一家傳統自動化公司。你要跟自動化行業卷效率是永遠卷不過的,還是要把AI軟件做好之後,去做一些更有價值的事情。
問:機器人行業藉助AI熱度重新火起來後,產業端和銷售端相較於過去有哪些明顯的不同?
王興興:變化非常大。與過去幾十年比,最近一兩年新的AI和機器人浪潮完全是兩個世界,技術的認可度和資本的熱度都不一樣,全球的大公司、中小企業、地方政府都非常關注機器人。但由於它還只能做一些固定的事情,大家不太滿意,整個行業發展跟通用AI落後了差不多10年的。我覺得會慢慢趕上來,因爲有更多的聰明人、更多的資本和關注進來了。
問:現在機器人都還在投入期,預計何時能到盈虧平衡?
王興興:具體要看怎麼算。我們還是保留了合理的利潤,希望有更多的機器人出貨量,這是最重要的。
如果投入大量的AI與人力,可能很難實現盈虧平衡,因爲AI太燒錢了。我們對AI的投入相對剋制一些。
問:大模型領域很信仰堆算力,人形機器人能否靠投入大量的數據和算力把通用模型搞得更好?
王興興:如果對大公司或者底子比較厚的公司,有財力和人力,可以多投入一點,但我們還是要算賬。
其實國內大公司對AI的投入也是比較剋制的,團隊大一點的可能有小几百人,少一點不過幾十個人。目前機器人的通用AI模型技術路線沒那麼清晰,如果投入過多的財力和人力,會有使不上勁的感覺。
OpenAI當時投入大,是他們內部已經驗證了模型是OK的,再加算力和資源效果愈發明顯,那就得加大投入。而在機器人領域,現在很難說哪個方向特別正確。特斯拉要搞的模仿學習可能堆數據是有效果,但更大的驗證不太確定。
問:如何看待當下機器人行業的競爭格局?中小公司的機會在哪裡?
王興興:中小公司競爭也是我一直在考慮的問題。最重要的是得保持對前沿技術的敏感度,得看到未來,要足夠靈活。如果能預估未來一兩年甚至五年以後的技術路線和行業格局,提前佈局,肯定死不了。
這方面大公司反倒有點難,因爲內部流程複雜、團隊間有競爭,資源溝通的順暢性(比較低),甚至有時大公司招人都沒有小公司方便。
問:中國、日本和美國在人形機器人領域算是跑得比較快的,你覺得中國企業擁有哪些優勢?
王興興:每個國家都有自己的特點,而且做得都還不錯。中國的優勢可能在於工業底子比較厚,劣勢就是AI人才非常缺乏,整個教育體系對AI人才的培養還是不太夠。