从VLA到世界模型：2025 年具身智能大模型的范式跃迁|具身之家

首页

资讯

------

行业动态

从VLA到世界模型：2025 年具身智能大模型的范式跃迁

2026-07-14 14:36:36 具身之家综合

在具身智能领域，2024-2026年最深刻的技术变革，不是关节电机变得更便宜，也不是传感器变得更精准，而是整个系统架构的范式转移。业界正在形成共识：让机器人"会思考"和"会干活"是两个不同层次的问题，需要不同的架构来分别解决。"大脑+小脑"的双引擎架构，正在成为具身智能大模型的主流技术路线，而这场技术革命的核心，是如何在认知推理与运动控制之间建立高效、可靠的协同机制。

架构革命：从端到端到分层解耦

早期的人形机器人研究往往采用端到端（End-to-End）的架构思路：输入传感器数据，输出关节控制指令。这种架构在理论上很优雅，但在实践中遇到了难以逾越的障碍。最大的问题是，认知推理（理解任务、规划步骤）和运动控制（执行动作、保持平衡）对模型的要求完全不同。前者需要强大的语言理解和逻辑推理能力，后者需要毫秒级的实时响应和物理世界的精确建模。

"大脑+小脑"架构的核心理念是解耦。大脑负责高层次的认知功能：自然语言理解、任务分解、环境理解、错误反思。小脑负责低层次的运动控制：轨迹规划、力控执行、平衡保持、避障反应。两个系统通过定义良好的接口进行通信：大脑向小脑下达"拿起桌上的杯子"这样的高层指令，小脑将其转化为具体的关节角度序列。

北京人形机器人创新中心开源的Pelican-VL 1.0是"大脑"层的典型代表。作为"视觉语言大脑"，它已经在工业、家庭等多个场景验证了毫米级操作能力。更重要的是，Pelican-VL采用了多模态对齐策略，将视觉、语言和动作三个模态在共享的嵌入空间中进行对齐训练。这意味着模型在看到"拿起红色的方形物体"这个指令和一张包含红蓝方块的工作台图片时，能够直接输出抓取红方块的动作序列，而无需经过"视觉识别→语言理解→动作规划"的多步串行推理。

小脑革命：从PID控制到模型预测控制

如果说大脑的革命在于"理解"，那么小脑的革命就在于"执行"。传统机器人控制主要依赖PID（比例-积分-微分）控制，这种基于误差反馈的控制策略在结构化环境中表现良好，但在非结构化、动态变化的环境中就显得力不从心。

新一代的小脑系统正在转向模型预测控制（MPC）和强化学习（RL）的结合。MPC通过预测未来一段时间内的系统状态，优化当前的控制输入，使机器人能够提前规划动作，而不是被动响应。RL则通过试错学习最优策略，使机器人能够适应新的环境和任务。

在优必选Walker S2中，小脑系统采用了分层强化学习架构。底层是运动基元（Motor Primitives）库，包含行走、抓取、放置等基本动作模式。中层是技能组合模块，将基本动作组合成复杂的技能序列。高层是策略网络，根据当前状态选择最优的技能组合。这种分层设计既保证了实时性（底层控制在毫秒级），又保证了灵活性（高层策略可以适应新的任务）。

数据革命：从真实采集到仿真生成

数据是训练大脑和小脑的燃料，但真实物理数据的采集成本高得惊人。华为云CloudRobo平台提出的解决方案是：用大模型生成仿真数据，替代绝大部分真实采集。平台由三套大模型协同驱动：具身多模态生成大模型负责创建高保真仿真场景，规划大模型负责将任务目标分解为可执行的动作序列，执行大模型负责在仿真中运行这些动作并采集数据。

平台与上海国地中心合作构建的虚实融合数据生成流水线，每天可以生成百万条训练数据。通过GAN风格的域迁移网络，将仿真数据的视觉风格调整为接近真实相机成像效果。最后，用少量真实采集数据（约10%）与大量仿真生成数据（约90%）混合训练模型。测试结果表明，这种混合训练策略得到的模型在实际部署中的成功率，与100%真实数据训练的结果差距在3个百分点以内。

芯片革命：从多芯片到SoC集成

硬件架构也在经历革命。传统机器人需要GPU处理视觉、CPU处理规划、MCU处理控制，三套芯片之间通过总线通信，延迟和功耗都居高不下。RDK S100算控一体化开发套件给出的答案是：把"大脑"（CPU）、"小脑"（BPU）和实时控制（MCU）集成到单一SoC平台上。

这种架构带来的优势是多维度的。功耗方面，单芯片方案相比传统的三芯片方案降低了60%以上。成本方面，BOM的简化直接降低了整机硬件成本。开发效率方面，统一的SDK和工具链让开发者不再需要在三套不同的开发环境之间切换。更重要的是，这种架构使端到端延迟被压缩到亚毫秒级，真正实现了"眼到手到"的直觉式反应。

协同革命：从串行到并行

大脑和小脑的协同机制也在进化。早期的架构往往是串行的：大脑先完成所有规划，再把完整的动作序列交给小脑执行。这种架构的问题在于，一旦环境发生变化，整个规划就可能失效。

新一代架构采用"滚动优化"策略：大脑只规划下一步动作，小脑执行后立即反馈结果，大脑基于最新状态重新规划下一步。这种闭环设计使机器人能够应对工具滑落、物体位移等意外情况。更重要的是，大脑和小脑可以并行工作：当小脑在执行当前动作时，大脑已经在规划下一步动作，这种流水线式的处理大幅提升了系统效率。

大脑+小脑架构的最终目标是实现"一脑多形、一机多用"的通用具身智能。同一个大脑模型，经过少量适配后可以驱动不同形态的机器人（双足、四足、轮式）。同一个机器人，通过加载不同的技能包可以执行不同的任务（装配、焊接、搬运）。

这场从"大脑"到"小脑"的技术革命，正在重新定义机器人的智能边界。当认知推理与运动控制不再是相互制约的瓶颈，而是相互促进的引擎，具身智能才能真正从实验室走向工厂、从工厂走向家庭、从专用走向通用。

分享到微信