宇樹CEO 對“具身智能”和“人形機器人”未來的設想
2024 年8 月,“2024 世界機器人大會”在京舉行,期間舉辦了系列論壇,在8 月24 日下午的技術論壇上,主要話題是“人形機器人”,宇樹科技CEO 兼CTO 王興興做了報告,題目是:“具身智能”指明了實現(xiàn)AGI的方向。
本文引用地址:http://www.newluohe.cn/article/202412/465715.htm王興興 宇樹科技CEO兼CTO
王興興首先向來參會的美國AI 研究所執(zhí)行主任、波士頓動力公司創(chuàng)始人Marc Raibert(馬克·雷伯特)致敬,說在他10 歲讀小學時,看到了Marc 在MIT 實驗室做的雙足機器人和后空翻機器人,是從在中國引進的科技紀錄片里,至今已二十幾年。宇樹公司2016年成立,至今也有8 年時間了。
王興興這次的報告是探討具身智能和AGI 的方向。
圖1 宇樹公司的機器人
1 OpenAI的早期研發(fā)也是機器人
OpenAI 早期的目標是實現(xiàn)AGI(通用人工智能)。實際上,該公司早年在機器人方面投入很大,但是由于GPT 發(fā)展很快,因此該公司后來在機器人的發(fā)展方向上投入資源較少。但是王興興堅信“具身智能”是更好實現(xiàn)AGI 的方向。
為什么這么說?王興興沒有直接回答,而是先介紹了宇樹機器人的發(fā)展歷程。
圖2 G1工程機的部分關節(jié)布置
2 宇樹機器人的進展
● Xdog —— 公司成立前的機器狗原型
早在2013—2015/2016 年,王興興在讀碩士期間做了XDog 機器人。當時初衷很簡單,因為他一名學生沒有那么多的資源去做一個很大的液壓機器人,所以當時希望用一種簡單的方法實現(xiàn)一個低成本、運動性能很好的方案,所以他當時就用盤式無刷電機,再加上自己開發(fā)的電機驅動板,實現(xiàn)了XDog 方案。該方案的研發(fā)投入只有一兩萬元。王興興在2015 年用這個機器人參加了上海的一個比賽,獲得了二等獎,贏得了8 萬元獎金。這筆獎金后來成為2016 年宇樹公司注冊時的啟動資金。
宇樹后續(xù)的產(chǎn)品主要是做高性能四足機器人,2023年年初又開始做高性能人形機器人等技術產(chǎn)品(如圖1)。代表性的產(chǎn)品如下。
● 四足機器人Go1
宇樹目前的四足主機器人主要是兩款。第一款是小一點的Go1,最大特點是搭載了自研的3D激光雷達,并且在2023 年就搭載了OpenAI 的ChatGPT 接口,用戶可以直接用語音跟它對話,讓它執(zhí)行一些底層的動作,并且也試著集成了OpenAI 的多模態(tài)接口,用戶可以問它前面有什么東西,它可以回答。
但是在開發(fā)過程中,發(fā)現(xiàn)目前的大語言模型和多模態(tài)模型對滿足機器人的應用是非常不足的——它們對空間/ 整個物理世界的理解,包括對機器人本體的理解是遠遠不夠的。所以希望未來有更好的機器人模型誕生。
當然這不可能僅指望一家公司,需要全球所有的實驗室和科技公司一起推動。
● 工業(yè)級四足機器人B2
B2 也是2023 年發(fā)布的,是大一點的工業(yè)級四足機器人,最大的特點是負載和續(xù)航能力很強。對于大部分的工業(yè)場景,包括室內外、地下管廊或其他環(huán)境都是足夠適用的,這也是宇樹目前的一個主力型號。
● 人形機器人H1 和G1
在人形機器人方面,宇樹目前發(fā)展也非???。其實早在2009 年王興興讀大一的時候,寒假就做過一個小的人形機器人,當時非常便宜,只用了200 元。但是做好以后他非常失望——不僅對自己感到失望,也對當時全球范圍內人形機器人的科技發(fā)展速度感到有些失望。所以之后很多年,很多人問宇樹做不做人形機器人?王興興非常堅決地回答“不做”。因為當時全球的技術及商業(yè)化程度,沒有辦法很好地推動人形機器人發(fā)展。但是在過去的幾年,很多實驗室用宇樹的機器狗做AI開發(fā),宇樹也肉眼可見了強化學習在四足機器人里的飛速進展。并且在2022 年底時ChatGPT 橫空出世,點燃了人們對生成式AI 影響機器人發(fā)展的信心。所以宇樹在2023 年初開始做高性能人形機器。H1 人形機器是2023 年第一款人形機器人,最大特點是動力性能強大,可謂當時全球同類型電驅人形機器人中動力性最強的之一。
2024 年5 月,宇樹又發(fā)布了第二款人形機器人——G1 工程機,8 月發(fā)布了量產(chǎn)版本。工程機器人也是整合了宇樹過去幾年對四足機器人、人形機器人的軟件、工業(yè)設計的經(jīng)驗,所以雖然這款機器人稍小一點,只有1.3米高,但無論它的外觀、性能/ 關節(jié)靈活性、產(chǎn)品完成度都很高。宇樹已經(jīng)快要完成量產(chǎn)化的設計改造,預計年底前就可以量產(chǎn)。
圖2 是G1 的關節(jié)布置,可見非常流暢和漂亮。這里有個“?!?,其實這種關節(jié)布置對于動力控制來說并不是最優(yōu)的,腿有點重且不方便控制。但是為什么敢這么做?原因就是AI 技術的進步,使很多原本不容易控制的變得容易解決了。
2024 年5 月G1 剛發(fā)布時展示的一些運動性能。里面用了一些傳統(tǒng)控制算法,但是大部分還是用了深度強化學習來實現(xiàn)。
目前產(chǎn)品的完成度還是非常高的,不怕踹、打,關節(jié)的靈活性也非常高,可以實現(xiàn)很多人實現(xiàn)不了的高難動作,還輕便可折疊(如圖3)。
圖3 G1不怕踹、踢,關節(jié)靈活性高
H1 是在2024 年初時推出,可能是全球第一款可實現(xiàn)空翻的純電機驅動的人形機器人,動力性能非常強勁,也是用了“模仿學習+ 強化學習”的算法,因為這種機器人不太好控制,用傳統(tǒng)算法很難實現(xiàn)空翻(圖4)。通過“模仿學習+ 強化學習”,還實現(xiàn)了奔跑及跳舞等動作。
圖4 H1在做空翻
在這次展會現(xiàn)場,宇樹長時間地在演示這個技術,可見穩(wěn)定性非常高。因為AI 技術相對于別的技術,最大的一個點就是它對硬件和對機器人的泛用性還是非常好的,哪怕硬件有一點點偏差,它還是可以有很穩(wěn)定的控制。
上述主要是基于深度相機的端到端深度強化學習。實際上,如果對于復雜地形也可以訓練。包括對于四足機器人——它本身也可以2條腿走路,包括連續(xù)的空翻,也是基于模仿學習和深度強化學習做的。這些功能早幾個月前,宇樹就已經(jīng)OTA 升級給全球客戶使用了。宇樹還推出了基于開源的遙操作數(shù)據(jù)采集系統(tǒng)(圖5)。因為目前AI 技術基本上是數(shù)據(jù)驅動的,因此對人形機器人的數(shù)據(jù)采集是剛需的,所以宇樹做了一套比較簡單的輕量化的數(shù)據(jù)采集系統(tǒng)。但這還需要更多完善。
圖5 H1的遙操作
2024 年年中,宇樹在基于模仿學習和深度強化之上做了G1 的一些升級性動作(圖6)。
圖6 G1升級了一些高難動作
3 宇樹的下一步規(guī)劃
人們可能覺得宇樹的機器人現(xiàn)在已經(jīng)做得不錯了,但實際上要做的事情還非常多。
例如,目前這些動作基本上是每個動作單獨做AI訓練的,但在很多場景下,人們還是希望一臺機器人可以自動切換所有的動作,而不需要人為地去切換動作,即一個通用AI機器人能做所有的事情。這也是通用AI希望達到的目標。這也是用深度相機來做端到端訓練的。
4 “深度強化學習”的近期發(fā)展方向
● 全身任意姿態(tài)或舞蹈等動作的模仿深度強化學習。
● 復雜地形下的全身任意穩(wěn)定運動。
● 手部:對于復雜物品或零部件,有較復雜的靈巧操作。現(xiàn)在全球范圍內用模仿學習可以實現(xiàn)較大物體的操作,例如把水杯從一處拿到另一處。但是對于更精細一點的活兒還做不好,例如焊電路、穿針引線、打一個結等。但這些都是非常值得做的。
● 基于圖像或深度數(shù)據(jù)等感知數(shù)據(jù)的強化學習導航避障。
5 未來能做的激動人心的事:世界模型=AGI
● “世界模型”包括對時空和物理規(guī)律的理解再好高騖遠一下,展望人形機器人能做的更加激動人心的一些事情。王興興看好“世界模型”,并認為具身智能是實現(xiàn)“世界模型”的一個方向。不過需要指出的是,這可能不是宇樹目前能實現(xiàn)的,希望全球的從業(yè)者都能推動這件事情,而且這將是未來最激動人心的時刻。
“世界模型”包括機器人對自身時空的理解,以及對物理規(guī)律的理解。實際上,人們也知道現(xiàn)在的AI 技術對機器人的身體和對世界的理解是完全不夠的,例如對重力、摩擦力和接觸的理解是非常差的。如果有更好的AI能把機器人對自身的認知和對環(huán)境的理解做出來,就可以大大推動整個機器人行業(yè)的進步。
而且“世界模型”本身就是AGI 的一個方向,可能就是用來真正實現(xiàn)AGI 的。因為AGI 最大的發(fā)展點是大部分人能做的事情它應該都能做,包括開車、洗衣做飯、工廠工作。如果“世界模型”對世界本身有很好的建模,那么這種目標就差不多要實現(xiàn)了。例如特斯拉的FSD(完全自動駕駛),“世界模型”對整個車輛和周邊環(huán)境都會有建模,包括對前車的速度判斷、撞擊等一些未來動作的預判,也會有好的建模和理解。
● 大模型的發(fā)展離不開“身體”
另一方面,很多做AI 的企業(yè),包括OpenAI,對大腦的重視程度非常高。但身體才是最重要的,因為大腦和身體是分不開的。
舉個簡單的例子,這也是王興興從小就非常困擾的一個問題:做夢的時候,為什么會突然感覺從懸崖上往下掉,或者在夢里為什么跑不快?這個問題在他本科的時候才想通,其實原因很簡單:人在睡覺的時候,大腦跟身體的感知是完全斷開的,你不能感知到身體的皮膚,也不能控制肌肉,所以你的大腦本身是沒有物理世界連接的。
所以在我們原本的認知里,跑步時,我每跑一步腳都是要跟地面有接觸的,接觸以后你的大腦知道我接觸到地面了,我要邁另外一只腳。但是在我們做夢的時候,由于跟物理世界脫離了關系,你的大腦其實不知道你已經(jīng)踩到地面了,所以你永遠感覺你的腳輕飄飄的,跑不快,沒辦法使力,所以這也是體現(xiàn)了目前的大的身體的重要性。包括為什么會覺得從懸崖上往下面掉,因為你在跟身體斷開連接的時候,你其實并不知道你的身體跟床是接觸的,你覺得你是懸空的,所以你往下掉。這也回答了一個非常簡單的問題,就是為什么現(xiàn)在大語言模型會有幻覺?簡單地解釋就是目前的大語言模型活在夢里,對物理世界是脫離連接的——不能感受到自己的身體,也不能看到,也不能撞到頭部,也不能眨眼睛……。所以它整個的閉環(huán)跟物理世界的連接斷開以后,讓所有的大語言模式都是活在夢里。由于它是非常虛擬的,所以會有很多幻覺、不真實——它自己都不知道做的事情真不真。原因也非常簡單,例如有人在說夢話,如果你跟他說一句話,他也回答你的問題。但是說夢話的人所說的是稀里糊涂的,沒有邏輯可言。所以這也體現(xiàn)了身體的重要性。
● 人和動物“換腦”會如何?
王興興又分享一個有趣的想法,是他小時候非常喜歡的思考:人為什么比動物聰明?如果把人的大腦放到狗里,或者豬里,或者把豬的大腦放到人里,到底哪種結構可以誕生更多的智能?
他一直在反思,這是受多方面的原因限制的,而且可能物理限制還會更多。例如他很懷疑:如果把一只猴子的大腦放到人的身上,Ta 照樣是可以說話的。
但是為什么猴子不能說話?原因非常簡單,其喉嚨和聲帶不支持它說話。舉個最簡單的例子,像鸚鵡的神經(jīng)元其實是比較少的,比較聰明、能說話的鸚鵡大概只有2~30 億的神經(jīng)元,但是猴子的神經(jīng)元跟它差不多,甚至猩猩的神經(jīng)元比它更多,但是為什么猩猩說不了話,而且只能發(fā)一些低級的聲音?可能人們猜測是聲帶的原因。這也可以解釋鸚鵡為什么能說話?因為它很喜歡吃堅果,在吃堅果的過程中,它的喉嚨和舌頭鍛煉得非常靈活,所以它沒有物理限制。所以這也是很大層面上一些高等動物,諸如一些海豚、鯨等,是因為它們的聲帶限制了它們的發(fā)聲。
表1 部分動物與人類的神經(jīng)元數(shù)量
所以除了純粹的AI,還需要:①對內,有身體,包括對視覺和身體的感知都非常重要,包括對實時的數(shù)據(jù)采集;②對外:對物理世界的了解,包括對一些碰撞、重力、摩擦力、光學等的理解。
● 人的輸出能力有潛力可挖
王興興還介紹了一個有趣的觀點:目前人的數(shù)據(jù)輸出能力是非常弱的,而人的數(shù)據(jù)輸入能力非常強,因為人有眼睛,看一張圖片或視頻的時候,數(shù)據(jù)的輸入量非常大,至少每秒鐘幾百或幾千kB 的數(shù)據(jù)量。但是人輸出數(shù)據(jù)的能力其實非常弱,只能通過說話或者敲鍵盤。最頂尖的人敲鍵盤的速度大概可能也就1 秒幾個字而已——比特流是非常低的。所以如果有一種輸出設備諸如人機接口可以把人的數(shù)據(jù)輸出能力大大提升,這對人本身的智能提升,包括工作效率會有非常大的提升。而且這項技術可以通過不需要用大腦植入式的設備,只要在表皮能連接上一些神經(jīng)元就可實現(xiàn)。
所以如果有一些神經(jīng)學或生物醫(yī)療相關的朋友,沒準可以試試這個方向?
王興興為什么愿意分享這個方向?因為他覺得自己沒有能力去做。歡迎有興趣、有能力的朋友去嘗試一下,或者與他一起去做這件事情。
另外他又分享了一個體驗:他小時候看一些電視劇,看到有些武林高手的耳朵是可以動的,就是他們的肌肉可以控制耳朵動,但是普通人實現(xiàn)不了。其實這個本領是可以鍛煉出來的。例如王興興在高中上英語課時總分心,有一段時間練習用想法控制腦袋殼上一塊肌肉的運動,練習了好幾天,突然有一天就能控制那塊肌肉了!
未來,也許用外部的腦機接口直接連接/ 替掉一些神經(jīng)元,然后去鍛煉一下,就能作為很好的人機接口輸出。
● 比人類更高級的智能形態(tài)會什么樣?
現(xiàn)在和曾經(jīng)的AI 網(wǎng)絡是模仿人類的,但又不完全跟人類一樣。這就像飛機一樣,飛行原理是參考了鳥的飛行原理,但是跟鳥又不完全一樣。所以用計算機實現(xiàn)的智能形態(tài),跟人的智能形態(tài)多少還是會有差異的。
● AGI的黎明快要到來
在2024 年年初的時候,王興興預估在2025 年年底之前,在全球至少有一家實驗室或公司可以把通用型的機器人AI模型給做出來。當然不知道是哪一家,有可能是中國,也有可能是美國的公司或者實驗室。
● 盡可能相信AI
有了生成式AI,當下是迄今人類歷史上最激動人心的時刻。
● 跨尺度智能
除了跟人一樣大小的人形機器人,還可以做更小更小的人形機器人,也可以做更大的人形機器人。例如可以做細胞大小的人形機器人,可以做比如100 萬個,然后當人生病的時候,只要把100 萬個人形機器人打到身體里面,就可以修復組織[1]。當然這個概念還比較遙遠。
參考文獻:
[1] 最小行走機器人能做微觀測量[N].熊文苑,譯.參考消息.2024-12-8.
(本文來源于《EEPW》202412)
評論