世界模型再进化！VLAW框架打造机器人“虚拟训练场”

来源：光明网2026-02-28 17:13

　　光明网讯 具身智能的浪潮中，世界模型始终被寄予厚望。这个被称作“数字模拟器”的存在，是机器人成长路上的“虚拟训练场”——让机器在虚拟空间里无限试错、积累经验，无需触碰真实世界中昂贵的硬件，就能练就一身本领。可现实往往事与愿违，这座看似美轮美奂的“数字楼阁”，因物理保真度不足、预测过于乐观等问题，长期停留在“看起来有用”的层面，难以真正落地，成为制约具身智能前行的核心瓶颈。

　　去年年中，谷歌Genie-3世界模型的问世，曾给行业带来一阵惊喜。它所构建的“无限交互世界”，能通过动作控制生成近乎无限的场景演化路径，让人们第一次直观感受到“可交互世界模型”的潜力。彼时，很多人畅想：若机器人能在这样的虚拟世界中完成亿万次训练，通用机器人是否就能触手可及？

世界模型「盲目乐观地」自动补全了残缺的形状；世界模型「错误地」将真实世界里倒塌的方块误认为堆叠状态。

　　畅想很快被现实击碎。当研究者试图将这种可交互世界模型用于机器人学习时，两个绕不开的本质问题浮出水面：世界模型擅长“伪装”，能做到“看起来对”，却难以还原真实的物理规律，做不到“物理上对”；更关键的是，机器人训练数据多是成功的演示案例，缺乏失败样本的滋养，让世界模型养成了“盲目乐观”的习性——它会自动补全残缺的形状，会把真实世界中倒塌的方块误认为堆叠状态，仿佛活在一个“没有失误”的理想国里。这种不准确性与过度乐观的叠加，让VLA（视觉-语言-行动）策略难以在其中稳定学习，世界模型的实用化之路陷入僵局。

　　机器人在真实世界中的试错“学费”，本就贵到离谱。一次真机试错，不仅需要人工重置环境，还要有人全程盯防，避免机械臂出错造成危险，这使得真实世界的训练数据规模被死死限制，成为具身智能发展的“卡脖子”难题。人们迫切需要一个能让机器人自由试错的虚拟空间。

世界模型再进化！VLAW框架打造机器人“虚拟训练场”

论文链接：https://arxiv.org/pdf/2602.12063

GitHub 地址：https://github.com/Robert-gyj/Ctrl-World

　　近期，清华陈建宇（星动纪元创始人）团队和斯坦福 Chelsea Finn（PI 创始人）团队基于Ctrl-World (两个团队的首个合作成果），再度携手，联合提出了VLAW框架，首次实现了VLA策略与动作条件世界模型的协同迭代优化，让两者形成一个“互相促进的闭环”：

　　VLA策略采集的真实交互数据，反过来用于提升世界模型的物理保真度；

　　世界模型生成的高质量虚拟数据，再用于持续强化VLA策略本身。

世界模型再进化！VLAW框架打造机器人“虚拟训练场”

　　VLA 模型在真实世界的 rollout 耗时且难以扩展。在 VLAW 中，首先利用有限的真实世界在线 rollout 学习一个动作条件的世界模型，进而在想象中生成大规模的合成数据

　　据了解，VLAW框架用四步走，将“让世界模型有用”的想法变成了现实。

　　第一步，用包含成功与失败的真实试错数据微调世界模型，搭配DROID数据集避免过拟合，帮它戒掉“乐观病”；

　　第二步，借助微调后的Qwen-VL视觉-语言奖励模型，自动判别虚拟数据的好坏，为训练把好质量关；

　　第三步，在校准后的世界模型中，让机器人策略大规模试错，每个任务生成500条合成轨迹，让机器人在“想象中”扎实练手；

　　第四步，融合真实与虚拟的成功样本优化VLA策略，既降低了强化学习的计算难度，又能让优化后的策略反哺世界模型，形成持续迭代的良性循环。

世界模型再进化！VLAW框架打造机器人“虚拟训练场”

　　在相同的初始帧和完全相同的动作序列条件下，在不同世界模型中执行轨迹推演。预训练的 Ctrl-World 模型对于这些接触密集型任务的精度不足；仅用专家轨迹微调的世界模型往往过于乐观；相反，用策略在线 rollout 数据微调的世界模型能准确捕捉底层的物理动力学，与真实世界的结果高度吻合。

　　研究团队通过动作重放评估发现，经VLAW校准后的世界模型，在视频质量指标上全面超越原始模型和仅用专家数据微调的模型，更重要的是，它的假阳性率大幅下降，再也不会把失败“脑补”成成功，即便面对20秒的长时程虚拟试错，也能保持较高的物理合理性。

　　研究团队在DROID机器人平台上，针对堆叠积木、打开书本、擦除白板标记、舀取颗粒、画圆五类复杂任务做了实测——这些任务都涉及频繁的物理接触或可变形物体操作，是传统仿真模型很难建模的场景，也正是检验世界模型实用价值的关键场景。

　　结果显示，VLAW支撑下的机器人策略成功率大幅提升，甚至能为真实世界的失败案例，在虚拟空间中找到成功的解决路径。

世界模型再进化！VLAW框架打造机器人“虚拟训练场”

　　与基线方法的成功率提升对比。进行了两轮迭代训练，「Ours-1」表示 VLAW 方法经过第一轮在线 rollout 后的结果。总体而言，在多任务设置下 VLAW 持续优于 Filtered BC 和 DSRL 基线

　　目前，VLAW的实验验证集中在五类任务上，研究团队表示，未来的研究将围绕世界模型的规模化和泛化性展开，持续提升世界模型的能力，让其能适配更多场景、更强的模型，真正成为通用机器人策略学习的核心工具：

　　一是把真实试错数据扩展到更多样的机器人操控任务中，提升世界模型的通用泛化能力；

　　二是结合更先进的视频生成模型，让世界模型的视觉预测和物理建模能力更上一层楼。

　　在研究团队看来，随着视频生成模型的持续发展，以及大规模机器人交互数据的不断积累，让世界模型变得更通用、更精准、更实用，并基于打磨后的世界模型构建训练范式，将成为通用机器人策略学习的核心方向。

　　未来的机器人，或许会先在由优质世界模型打造的虚拟世界里完成“满级训练”，把各种技能练到炉火纯青，再无缝落地到真实世界，从容完成各类复杂的操控任务。VLAW所构建的VLA策略与世界模型协同迭代的良性循环，让世界模型摆脱了“看起来有用”的桎梏，更让机器人在虚拟与现实的联动中，找到了高效学习、低成本试错的新路径。（战钊）

[ 责编：焦子原 ]

阅读剩余全文（）