当一台人形机器人不仅能稳健行走,还能自主识别物体、理解指令并完成精细操作时,它就不再是传统的"自动化设备",而是一个真正意义上的"具身智能体"。2025至2026年,从VLA(视觉-语言-动作)大模型到世界模型,从单一任务执行到多任务泛化,从手控遥控到全自主决策——具身智能的"大脑"正在经历一场深刻的技术变革。这场变革的核心,是让机器人从"能走"跨越到"能干",从"机械执行"进化到"智能理解"。
VLA模型是2025年具身智能领域最引人瞩目的技术突破之一。传统的机器人控制依赖于人工编程或示教再现,每种新任务都需要重新编程,泛化能力极弱。而VLA模型则将视觉感知(Vision)、语言理解(Language)和动作生成(Action)整合为统一的端到端系统——机器人看到场景、理解指令,并自主生成对应的动作序列。2025年12月,阿里达摩院发布的RynnVLA-002首次将VLA模型与世界模型统一在单一框架中,形成了"动作世界模型"。这一创新的意义在于:机器人不仅能根据当前感知做出反应,还能在"脑海中"模拟动作的后果,从而做出更优的决策。
在VLA模型的实现路径上,国内企业呈现出百花齐放的探索态势。智平方发布的GOVLA大模型,作为全球首个全域全身具身大模型,其关键突破在于率先提出统一输出"全身控制和移动轨迹"——而非像常规VLA模型那样仅输出机械臂动作序列。这一升级意味着机器人的"手"和"腿"可以在统一的智能框架下协同工作:当机器人需要从一个位置走到另一个位置并完成操作时,行走和操作不再是两个独立的任务,而是一个完整的智能行为。星尘智能的Lumo-1VLA模型则另辟蹊径,通过具身化VLM(视觉语言模型)、跨本体联合训练、推理-动作真机训练以及强化学习校准对齐等多阶段训练策略,将大模型的"心智"能力转化为从全身到手指的丝滑操作。
北京人形机器人创新中心在2025年3月发布的"慧思开物"平台,则是VLA模型从实验室走向工程化的代表性成果。作为全球首个"一脑多能、一脑多机"的通用具身智能平台,"慧思开物"为机器人配备了统一的"大脑"和"小脑",实现了从任务理解到执行的全流程智能化。在演示中,搭载"慧思开物"的同一台机器人可以自主完成拼积木、工业分拣、打包快递等多项性质完全不同的任务——这在传统机器人架构中几乎是不可想象的。2025年12月,搭载"慧思开物"的"天工"机器人在北京人形机器人创新中心展厅中首次实现了完全无人化的全自主导览,彻底摆脱人工遥控,标志着全自主机器人从"演示"走向"实用"的关键一步。
与世界模型的融合,是VLA技术演进的下一个重要方向。世界模型是指机器人对其所处环境的内部表征和预测能力——它不仅要"看懂"当前场景,还要"预判"动作的后果。传统工业机器人不需要世界模型,因为它们总是在结构化的、可预测的环境中工作。但当机器人进入家庭、医院、商场等非结构化环境时,世界模型就变得不可或缺——它使机器人能够在"脑海中"推演"如果我伸手去拿那个杯子,它会倒吗?""那个人正在走过来,我应该让开吗?""这个物体看起来像玻璃杯,我需要轻拿轻放。"阿里达摩院将VLA与世界模型融合为"动作世界模型"的做法,正是在解决这一核心挑战。
强化学习与模仿学习的结合,为具身智能的训练方法带来了新的可能。中国信通院副总工程师许志远指出,在物理智能层面,依托强化学习,人形机器人在复杂地形行走、高难度舞蹈等动态任务中表现精进;借助模仿学习与大模型范式,上肢操作能力快速提升,已实现切黄瓜、倒水、叠衣服等生活化动作。以智元机器人远征A2完成106.286公里跨省行走为例——这样的长距离、多路况行走不可能依靠人工编程实现每一段路的步态,而是依赖强化学习训练出的自适应运动策略。模仿学习则让机器人通过观察人类示范快速习得新技能,大幅降低了新任务的学习成本。
具身智能"大脑"的进化,也在重塑机器人产业的人才需求和技术栈。传统的机器人工程师以机械、电子和控制背景为主,而新一代具身智能企业的核心团队则更多地来自AI、计算机视觉和自然语言处理领域。这种人才结构的变化,折射出行业价值链的迁移:软件和算法正在取代硬件成为核心竞争力。智元机器人在三年内完成超过11轮融资,宇树科技估值达到420亿元——资本之所以给予如此高的估值溢价,很大程度上是因为它们所代表的"AI+机器人"融合路线的想象空间,远大于传统机器人公司。
当然,"大脑"技术的成熟之路仍然漫长。当前的VLA模型在复杂、长程任务中的成功率仍有待提升,在完全陌生环境中的泛化能力也远未达到人类水平。世界模型的准确性和可靠性是另一个技术瓶颈——在安全攸关的场景中(如医疗手术、高危作业),"预判错误"的代价可能极其高昂。此外,从"单机智能"到"群体智能"的跨越——即多台机器人之间的实时协同与任务分配——也是一个正在被积极攻克的前沿方向。但方向已经明确:具身智能的终极目标不是制造更快的机械臂或更稳的双足,而是创造一个能够在物理世界中像人类一样感知、思考和行动的智能体。而VLA模型与世界模型的融合,正在为这一目标搭建最关键的"认知引擎"。