新科技速遞| 特斯拉自動駕駛一鳴驚人預示人形機械人時代來臨

[新科技速遞]

特斯拉（Tesla）向北美用戶，免費提供新版FSD 12.3自動駕駛一個月，並且不再掛上Beta，好評如潮，新版FSD大獲成功，行政總裁馬斯克表示，今年8月8日將推出Robotaxi，自動駕駛走向的士市場。

FSD揭櫫了「端對端神經網絡」（End to End Neural Network）自動駕駛模仿人類，變成了神乎其技的駕駛者，影響不再囿於電動車，甚至影響機械人的技術路線。

不少人以為，今年是人形機械人的元年，技術上已萬事俱備。去年底，人形機器人第一股優必選（Ubtech）本港上市，市值曾達1330億港元。特斯拉開發Optimus，美國Figure AI剛獲Amazon創辦人Jeff Bezos、Nvidia（輝達）、OpenAI和微軟融資6.75億美元，估值達26億美元。

人類的許多動作以至開車，不是深思熟慮，而是一種手眼協調的本能反應。新版FSD以現實駕駛場景，訓練出大模型，直接以「端對端神經網絡」控制車輛，不再通過程式人員以代碼的規律決定。神經網絡全憑學習的直覺經驗，有如大模型預測下一步動作，同樣可套用於機械人上，為人形機械人商業化，帶來了無限憧憬。

輝達創辦人黃仁勳：GTC宣布推出人型機器人通用基礎模型 GR00T項目，為人形機器人學習創建一個通用的大模型。GR00T 驅動機器人能理解自然語言，透過觀察人類行為仿效動作，快速學習協調和技能。

機械人大模型時代

以往，自動駕駛是「模組化架構」（Modular architecture），程式人員按不同場景，駕駛過程劃分不同任務，通過感應器和演算法處理數據，再生成輸出預設步驟控制，然後又與相關模組交換訊息、最後作出規劃和控制，但模組化架構有不少缺點。

首先，模組化架構可放大錯誤，例如某個感應器誤判，或者是分類有錯誤，可牽一髮動全身，誤導後續規劃和控制模組，甚至自相矛盾，導致行車不安全，管理互連模組又增加了複雜性，多階段的數據處理，影響運算效率，反而直接將決定交給神經網絡，速度和效率會更高，FSD已證明端對端神經網絡，相較模組化架構，甚至多個大模型一同作決策，更有效率和準確。

FSD放棄模組化架構，完全透過「端對端神經網絡」，攝像頭串流的影像，直接輸入神經網絡，網絡再直接輸出控制指令如轉向、加速、刹車等，中間只經神經網絡，更加直接迅速，透過學習的駕駛經驗；有如大模型輸入預測文字一樣，神經網絡從影像輸入，預測下一步行動，可從路面環境作出複雜判斷的決策。

雖然FSD 仍屬須要監督（Supervised）L2級別輔助系統，司機不能移開視線和手，但FSD表現淡定，決策有條不紊，有如經驗老到司機。FSD大獲成功，電動車操作原理，亦有如機械人，機械人可仿效（Imitate）人類動作，訓練出類似神經網絡的大模型，執行各項任務，特拉斯正以同樣原理訓練Optimus。

FigureAI — 美國Figure AI估值達26億美元，利用端對端神經網絡運作機械人，攝像頭和肢體位置輸入，預測和執行機械人的動作。

大模型技術路線之爭

優必選副總裁龐建新接受雷鋒網的訪問，直言AI和人形機械人技術結合，正處於一個「開放性問題的時期」。大模型結合人形機械人，可能出現兩種流派，一種是將一種流派採用分層結構，大模型分為三個層次：第一層與大腦相關，主要處理知識、常識推理等；第二層與動作決策和任務規劃相關，類似於小腦功能，指導動作的規劃；第三層則直接與控制相結合，處理動作的規劃與控制。

另一種就是端到端方案，即從感知直接到控制的過程，一氣呵成交由神經網絡控制，也就是Tesla採用的技術路線。不過，端對端數據複雜，卻提供了直接的解決方案，挑戰在於難以獲取數據。

合成數據訓練機械人

上月，輝達高級研究科學家范麟熙（Jim Fan)和德州大學奧斯丁分校朱玉可教授，成立研究通用人體機械人GEAR（Generalist Embodied Agent Research）實驗室，開發輝達機械人大模型GR00T，以合成數據解決端到端訓練難題，GEAR的MimicGen項目以不到200個人類演示，自主生成了超過5萬訓練數據，涵蓋18個任務、多個模擬環境。范麟熙甚至預言，合成數據將提供萬億級的高質量訓練數據。

近日，特斯拉和Figure AI，優必選先後發佈人形機械人視頻，雖然只是煮咖啡和疊衣服之類，動作笨拙；乍看之下不及懂得打空翻，跳舞和飛簷走壁的Boston Dynamics，但仿效人類動作學習，以端對端神經網絡控制的機械人，成本更低，更有機會商業化。

優必選公佈夥拍百度，Figure AI與OpenAI合作，加上特斯拉，人形機械人已成鼎足之勢。曾叱吒一時的Boston Dynamics，反而斯人獨憔悴了。

Leave a Reply Cancel reply