當前位置：首頁 > 新聞資訊 > 行業(yè)動態(tài) > 我們距離真正的具身智能大模型還有多遠,在模態(tài)擴展,推理機制與數(shù)據(jù)構成三方面持續(xù)演進

我們距離真正的具身智能大模型還有多遠,在模態(tài)擴展,推理機制與數(shù)據(jù)構成三方面持續(xù)演進

來源：東吳證券編輯：創(chuàng)澤時間：2025/8/11 主題：其他 [加盟]

人形機器人為何需要高智能的大模型？

盡管人形機器人的形態(tài)早已實現(xiàn)工程可行，但其真正實現(xiàn)產(chǎn)業(yè)化落地的關鍵，在于擺脫傳統(tǒng)工業(yè)機器人“控制剛、泛化弱”的局限，補足對不確定性的理解與適應能力。工業(yè)機器人主要基于確定性控制邏輯運行，缺乏感知、決策與反饋能力，導致高度依賴集成，成本高、通用性差。相比之下，人形機器人以“通用智能體”為目標，強調感知—推理—執(zhí)行的完整鏈路，需要依托大模型支撐的多模態(tài)理解與泛化能力，才能適應復雜任務與動態(tài)環(huán)境。當前多模態(tài)大模型的興起，為人形機器人提供了“初J大腦”，開啟從0到1的智能進化，并通過數(shù)據(jù)飛輪實現(xiàn)模型能力與產(chǎn)品性能的持續(xù)提升。然而整體智能化仍處于L2初J階段，通往泛化智能仍面臨建模方法、數(shù)據(jù)規(guī)模與訓練范式等多重挑戰(zhàn)，高智能大模型將是貫通通用人形機器人路徑的核心變量。

從架構端和數(shù)據(jù)端看，目前機器人大模型的進展如何？

當前機器人大模型的快速演進，主要得益于架構端與數(shù)據(jù)端的協(xié)同突破。架構上，從早期的SayCan語言規(guī)劃模型，到RT-1實現(xiàn)端到端動作輸出，再到PaLM-E、RT2將多模態(tài)感知能力融合至統(tǒng)一模型空間，大模型已逐步具備“看圖識意、理解任務、生成動作”的完整鏈條。2024年π0引入動作專家模型，動作輸出頻率達50Hz；2025年Helix實現(xiàn)快慢腦并行架構，控制頻率突破至200Hz，顯著提升機器人操作的流暢性與響應速度。數(shù)據(jù)端，已形成互聯(lián)網(wǎng)、仿真、真機動作三類數(shù)據(jù)協(xié)同支撐的結構化體系：前兩者提供預訓練量J與泛化場景，后者則直接提升模型在物理世界中的實用能力。其中，真機數(shù)據(jù)采集對高精度動捕設備依賴度高，光學動捕以精度優(yōu)勢適配集中式訓練場，有望成為具身模型訓練的核心數(shù)據(jù)來源。當前主流訓練范式正由“低質預訓練+高質后調優(yōu)”快速迭代，模型智能的躍遷正轉向“從數(shù)據(jù)堆料到結構優(yōu)化”的階段。

未來大模型的發(fā)展方向是什么？

面向未來，具身大模型將在模態(tài)擴展、推理機制與數(shù)據(jù)構成三方面持續(xù)演進。當前主流模型多聚焦于視覺、語言與動作三模態(tài)，下一階段有望引入觸覺、溫度等感知通道；Cosmos等架構嘗試通過狀態(tài)預測賦予機器人“想象力”，實現(xiàn)感知—建�！獩Q策閉環(huán)，構建更真實的“世界模型”，提升機器人環(huán)境建模與推理能力；數(shù)據(jù)端，仿真與真實數(shù)據(jù)融合訓練成為主流方向，高標準、可擴展的訓練場正成為通用機器人訓練體系的關鍵支撐

附件：我們距離真正的具身智能大模型還有多遠,在模態(tài)擴展,推理機制與數(shù)據(jù)構成三方面持續(xù)演進