Slide
Slide
Slide
Hitachi_AI_HCI
Hitachi_HCI
HCI
previous arrow
next arrow

新科技速遞| 特斯拉自動駕駛一鳴驚人 預示人形機械人時代來臨

Tesla
人形機器人第一股優必選本港上市,從左至右,港交所聯席營運總監陳翊庭,上市委員會主席Renu BHATIA,優必選行政總裁周劍,創新科技及工業局局長孫東教授,香港引進重點企業辦公室執行總裁吳國才。

[新科技速遞]

特斯拉(Tesla)向北美用戶,免費提供新版FSD 12.3自動駕駛一個月,並且不再掛上Beta,好評如潮,新版FSD大獲成功,行政總裁馬斯克表示,今年8月8日將推出Robotaxi,自動駕駛走向的士市場。

FSD揭櫫了「端對端神經網絡」(End to End Neural Network)自動駕駛模仿人類,變成了神乎其技的駕駛者,影響不再囿於電動車,甚至影響機械人的技術路線。

不少人以為,今年是人形機械人的元年,技術上已萬事俱備。去年底,人形機器人第一股優必選(Ubtech)本港上市,市值曾達1330億港元。特斯拉開發Optimus,美國Figure AI剛獲Amazon創辦人Jeff Bezos、Nvidia(輝達)、OpenAI和微軟融資6.75億美元, 估值達26億美元。

人類的許多動作以至開車,不是深思熟慮,而是一種手眼協調的本能反應。新版FSD以現實駕駛場景,訓練出大模型,直接以「端對端神經網絡」控制車輛,不再通過程式人員以代碼的規律決定。神經網絡全憑學習的直覺經驗,有如大模型預測下一步動作,同樣可套用於機械人上,為人形機械人商業化,帶來了無限憧憬。

GTC
輝達創辦人黃仁勳:GTC宣布推出人型機器人通用基礎模型 GR00T項目,為人形機器人學習創建一個通用的大模型。GR00T 驅動機器人能理解自然語言,透過觀察人類行為仿效動作,快速學習協調和技能。

機械人大模型時代

以往,自動駕駛是「模組化架構」(Modular architecture),程式人員按不同場景,駕駛過程劃分不同任務,通過感應器和演算法處理數據,再生成輸出預設步驟控制,然後又與相關模組交換訊息、最後作出規劃和控制,但模組化架構有不少缺點。

首先,模組化架構可放大錯誤,例如某個感應器誤判,或者是分類有錯誤,可牽一髮動全身,誤導後續規劃和控制模組,甚至自相矛盾,導致行車不安全,管理互連模組又增加了複雜性,多階段的數據處理,影響運算效率,反而直接將決定交給神經網絡,速度和效率會更高,FSD已證明端對端神經網絡,相較模組化架構,甚至多個大模型一同作決策,更有效率和準確。

FSD放棄模組化架構,完全透過「端對端神經網絡」,攝像頭串流的影像,直接輸入神經網絡,網絡再直接輸出控制指令如轉向、加速、刹車等,中間只經神經網絡,更加直接迅速,透過學習的駕駛經驗;有如大模型輸入預測文字一樣,神經網絡從影像輸入,預測下一步行動,可從路面環境作出複雜判斷的決策。

雖然FSD 仍屬須要監督(Supervised)L2級別輔助系統,司機不能移開視線和手,但FSD表現淡定,決策有條不紊,有如經驗老到司機。FSD大獲成功,電動車操作原理,亦有如機械人,機械人可仿效(Imitate)人類動作,訓練出類似神經網絡的大模型,執行各項任務,特拉斯正以同樣原理訓練Optimus。

FigureAI
美國Figure AI估值達26億美元,利用端對端神經網絡運作機械人,攝像頭和肢體位置輸入,預測和執行機械人的動作。

大模型技術路線之爭

優必選副總裁龐建新接受雷鋒網的訪問,直言AI和人形機械人技術結合,正處於一個「開放性問題的時期」。大模型結合人形機械人,可能出現兩種流派,一種是將一種流派採用分層結構,大模型分為三個層次:第一層與大腦相關,主要處理知識、常識推理等;第二層與動作決策和任務規劃相關,類似於小腦功能,指導動作的規劃;第三層則直接與控制相結合,處理動作的規劃與控制。

另一種就是端到端方案,即從感知直接到控制的過程,一氣呵成交由神經網絡控制,也就是Tesla採用的技術路線。不過,端對端數據複雜,卻提供了直接的解決方案,挑戰在於難以獲取數據。

輝達高級研究科學家范麟熙
輝達高級研究科學家范麟熙:GEAR研究內容主要包括多模態基礎模型、通用機器人、虛擬世界通用智能體以及模擬與合成數據等。

合成數據訓練機械人

上月,輝達高級研究科學家范麟熙(Jim Fan)和德州大學奧斯丁分校朱玉可教授,成立研究通用人體機械人GEAR(Generalist Embodied Agent Research)實驗室,開發輝達機械人大模型GR00T,以合成數據解決端到端訓練難題,GEAR的MimicGen項目以不到200個人類演示,自主生成了超過5萬訓練數據,涵蓋18個任務、多個模擬環境。 范麟熙甚至預言,合成數據將提供萬億級的高質量訓練數據。

近日,特斯拉和Figure AI,優必選先後發佈人形機械人視頻,雖然只是煮咖啡和疊衣服之類,動作笨拙;乍看之下不及懂得打空翻,跳舞和飛簷走壁的Boston Dynamics,但仿效人類動作學習,以端對端神經網絡控制的機械人,成本更低,更有機會商業化。

優必選公佈夥拍百度,Figure AI與OpenAI合作,加上特斯拉,人形機械人已成鼎足之勢。曾叱吒一時的Boston Dynamics,反而斯人獨憔悴了。

Leave a Reply

Your email address will not be published. Required fields are marked *