点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:世界模型再进化!VLAW框架打造机器人“虚拟训练场”
首页> 科技频道> 人工智能 > 正文

世界模型再进化!VLAW框架打造机器人“虚拟训练场”

来源:光明网2026-02-28 17:13

  光明网讯 具身智能的浪潮中,世界模型始终被寄予厚望。这个被称作“数字模拟器”的存在,是机器人成长路上的“虚拟训练场”——让机器在虚拟空间里无限试错、积累经验,无需触碰真实世界中昂贵的硬件,就能练就一身本领。可现实往往事与愿违,这座看似美轮美奂的“数字楼阁”,因物理保真度不足、预测过于乐观等问题,长期停留在“看起来有用”的层面,难以真正落地,成为制约具身智能前行的核心瓶颈。

  去年年中,谷歌Genie-3世界模型的问世,曾给行业带来一阵惊喜。它所构建的“无限交互世界”,能通过动作控制生成近乎无限的场景演化路径,让人们第一次直观感受到“可交互世界模型”的潜力。彼时,很多人畅想:若机器人能在这样的虚拟世界中完成亿万次训练,通用机器人是否就能触手可及?

世界模型再进化!VLAW框架打造机器人“虚拟训练场”

世界模型「盲目乐观地」自动补全了残缺的形状;世界模型「错误地」将真实世界里倒塌的方块误认为堆叠状态。

  畅想很快被现实击碎。当研究者试图将这种可交互世界模型用于机器人学习时,两个绕不开的本质问题浮出水面:世界模型擅长“伪装”,能做到“看起来对”,却难以还原真实的物理规律,做不到“物理上对”;更关键的是,机器人训练数据多是成功的演示案例,缺乏失败样本的滋养,让世界模型养成了“盲目乐观”的习性——它会自动补全残缺的形状,会把真实世界中倒塌的方块误认为堆叠状态,仿佛活在一个“没有失误”的理想国里。这种不准确性与过度乐观的叠加,让VLA(视觉-语言-行动)策略难以在其中稳定学习,世界模型的实用化之路陷入僵局。

  机器人在真实世界中的试错“学费”,本就贵到离谱。一次真机试错,不仅需要人工重置环境,还要有人全程盯防,避免机械臂出错造成危险,这使得真实世界的训练数据规模被死死限制,成为具身智能发展的“卡脖子”难题。人们迫切需要一个能让机器人自由试错的虚拟空间。

世界模型再进化!VLAW框架打造机器人“虚拟训练场”

论文链接:https://arxiv.org/pdf/2602.12063

GitHub 地址:https://github.com/Robert-gyj/Ctrl-World

  近期,清华陈建宇(星动纪元创始人)团队和斯坦福 Chelsea Finn(PI 创始人)团队基于Ctrl-World (两个团队的首个合作成果),再度携手,联合提出了VLAW框架,首次实现了VLA策略与动作条件世界模型的协同迭代优化,让两者形成一个“互相促进的闭环”:

  VLA策略采集的真实交互数据,反过来用于提升世界模型的物理保真度;

  世界模型生成的高质量虚拟数据,再用于持续强化VLA策略本身。

世界模型再进化!VLAW框架打造机器人“虚拟训练场”

  VLA 模型在真实世界的 rollout 耗时且难以扩展。在 VLAW 中,首先利用有限的真实世界在线 rollout 学习一个动作条件的世界模型,进而在想象中生成大规模的合成数据

  据了解,VLAW框架用四步走,将“让世界模型有用”的想法变成了现实。

  第一步,用包含成功与失败的真实试错数据微调世界模型,搭配DROID数据集避免过拟合,帮它戒掉“乐观病”;

  第二步,借助微调后的Qwen-VL视觉-语言奖励模型,自动判别虚拟数据的好坏,为训练把好质量关;

  第三步,在校准后的世界模型中,让机器人策略大规模试错,每个任务生成500条合成轨迹,让机器人在“想象中”扎实练手;

  第四步,融合真实与虚拟的成功样本优化VLA策略,既降低了强化学习的计算难度,又能让优化后的策略反哺世界模型,形成持续迭代的良性循环。

世界模型再进化!VLAW框架打造机器人“虚拟训练场”

  在相同的初始帧和完全相同的动作序列条件下,在不同世界模型中执行轨迹推演。预训练的 Ctrl-World 模型对于这些接触密集型任务的精度不足;仅用专家轨迹微调的世界模型往往过于乐观;相反,用策略在线 rollout 数据微调的世界模型能准确捕捉底层的物理动力学,与真实世界的结果高度吻合。

  研究团队通过动作重放评估发现,经VLAW校准后的世界模型,在视频质量指标上全面超越原始模型和仅用专家数据微调的模型,更重要的是,它的假阳性率大幅下降,再也不会把失败“脑补”成成功,即便面对20秒的长时程虚拟试错,也能保持较高的物理合理性。

  研究团队在DROID机器人平台上,针对堆叠积木、打开书本、擦除白板标记、舀取颗粒、画圆五类复杂任务做了实测——这些任务都涉及频繁的物理接触或可变形物体操作,是传统仿真模型很难建模的场景,也正是检验世界模型实用价值的关键场景。

  结果显示,VLAW支撑下的机器人策略成功率大幅提升,甚至能为真实世界的失败案例,在虚拟空间中找到成功的解决路径。

世界模型再进化!VLAW框架打造机器人“虚拟训练场”

  与基线方法的成功率提升对比。进行了两轮迭代训练,「Ours-1」表示 VLAW 方法经过第一轮在线 rollout 后的结果。总体而言,在多任务设置下 VLAW 持续优于 Filtered BC 和 DSRL 基线

  目前,VLAW的实验验证集中在五类任务上,研究团队表示,未来的研究将围绕世界模型的规模化和泛化性展开,持续提升世界模型的能力,让其能适配更多场景、更强的模型,真正成为通用机器人策略学习的核心工具:

  一是把真实试错数据扩展到更多样的机器人操控任务中,提升世界模型的通用泛化能力;

  二是结合更先进的视频生成模型,让世界模型的视觉预测和物理建模能力更上一层楼。

  在研究团队看来,随着视频生成模型的持续发展,以及大规模机器人交互数据的不断积累,让世界模型变得更通用、更精准、更实用,并基于打磨后的世界模型构建训练范式,将成为通用机器人策略学习的核心方向。

  未来的机器人,或许会先在由优质世界模型打造的虚拟世界里完成“满级训练”,把各种技能练到炉火纯青,再无缝落地到真实世界,从容完成各类复杂的操控任务。VLAW所构建的VLA策略与世界模型协同迭代的良性循环,让世界模型摆脱了“看起来有用”的桎梏,更让机器人在虚拟与现实的联动中,找到了高效学习、低成本试错的新路径。(战钊

[ 责编:焦子原 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 2026年巴塞尔艺术展香港展会启幕

  • 江西上饶:防火宣传进景区

独家策划

推荐阅读
全国科学技术名词审定委员会25日发布《关于发布试用人工智能领域名词token中文名“词元”的公告》,决定在综合考量社会各界意见建议的基础上,优先推荐“词元”作为人工智能领域名词token的中文名,并面向全社会发布试用。
2026-03-26 09:23
木卫二是一颗冰封的木星卫星,也是太阳系内最有希望孕育地外生命的地方。“欧罗巴快船”团队认为,他们将发现适宜生命生存的海洋,但除非探测器真正抵达、展开探测,没有人能给出确切的答案。
2026-03-26 09:24
作者:陆俊杰(南通大学副校长,江苏省习近平新时代中国特色社会主义思想研究中心特约研究员)  在促进创新链产业链资金链人才链深度融合、推动科技成果高效转化应用上探索新途径,是“十五五”时期江苏经济社会发展的重要目标任务。深耕“双高协同”不仅是破解科研创新与产业需求脱节的关键举措,更是落实创新驱动发展战略的重要布局。
2026-03-26 09:24
记者从中国发明协会获悉:在瑞士日内瓦举行的第五十一届日内瓦国际发明展上,中国代表团共获得90项金奖、95项银奖和52项铜奖。
2026-03-26 09:30
工业和信息化部25日公布,今年前2个月,我国通信业运行平稳,电信业务总量保持增长,5G、千兆光网、物联网等网络基础设施建设有序推进。截至2月末,5G基站总数达490.9万个,比上年末净增7万个,占移动基站总数的38%。
2026-03-26 09:24
3月25日,国家自然科学基金委员会在2026中关村论坛年会开幕式上发布2025年度“中国科学十大进展”,10项重大基础研究突破入选。界面调控新方法创制面向空天应用的高性能柔性叠层太阳能电池示意图 国家自然科学基金委员会供图 
2026-03-26 09:22
3月25日,以“创新与发展”为永久主题,由科技部、国家发展改革委、工业和信息化部、国务院国资委、中国科学院、中国工程院、中国科协和北京市政府共同主办的2026中关村论坛年会在北京拉开帷幕。
2026-03-26 09:21
记者24日从农业农村部获悉,农业农村部近日印发通知,督促指导各地依法严厉打击坑农害农、危害粮食安全和农产品质量安全违法行为,守护群众“舌尖上的安全”,持续夯实国家粮食安全根基。
2026-03-25 10:22
氢能兼具能源、资源、储能介质三重属性,氢能产业科技含量高、低碳属性强、发展空间大。通知提出到2030年,通过应用规模扩大,推动氢能应用技术、工艺、装备创新突破,实现燃料电池、电解槽、储运装置和材料等迭代升级,推动氢能成为新的经济增长点,支撑实现经济社会发展全面绿色转型。
2026-03-25 10:21
林间密密麻麻的印痕,正是东北虎豹国家公园生态环境越来越好的体现。在科技守护与不懈坚守下,东北虎豹国家公园的生态成果愈发显著:东北虎和东北豹的数量由公园试点初的27只和42只,增长至当前的70只和80只左右。
2026-03-25 10:11
国家卫生健康委和中国气象局24日联合发布首期全国花粉浓度预报服务提示,为公众提供精准防护指引。目前正值春季,以木本植物花粉传播为主,建议过敏人群及时关注本地花粉浓度和种类变化,必要时明确过敏原,提前做好防护和出行安排。
2026-03-25 10:04
自然资源部日前发布四川省冕宁县牦牛坪矿区稀土矿资源储量核实勘查项目成果,矿区新增稀土资源量966.6万吨。据悉,牦牛坪矿区稀土矿资源储量核实勘查项目还新增伴生萤石资源量2713.5万吨、伴生重晶石资源量3722.8万吨,均达到超大型规模,具有重大战略意义。
2026-03-25 10:00
记者了解到,自20世纪60年代推广杂交玉米种以来,我国玉米的单产提高了约2.7倍,其中51%的增益都来自优良杂交种的选育与应用。进一步研究发现,在现代杂交育种过程中,玉米的基因有害变异被不断清除或互补,并且,杂交种中有害等位基因被抑制表达的比例与其产量和育成年代同步增长。
2026-03-24 09:29
2023年,国务院部署开展专利转化运用专项行动(以下简称“专项行动”)。教育部科学技术与信息化司司长周大旺表示,教育部着力畅通科技成果转化的链条,加速把高校丰富的专利转变为产业发展的红利。
2026-03-24 09:28
走进内蒙古博物院的有机质文物修复室,时间似乎放慢了脚步,空气中透着静谧,只有工具偶尔轻碰的细微声响。”  无机质文物修复室里,文物修复师季园园展示了另一种“手术”场景。
2026-03-24 09:28
柳申滨最初以针刺治疗皮肤炎症及穴位敏化机制为切入点,试图探寻针刺调控皮肤靶器官的效应规律。”  通过和临床医生交流,柳申滨了解到,在压力、焦虑等心理应激状态下,特应性皮炎患者的皮肤炎症会显著加重。
2026-03-24 09:28
全球最大人工智能(AI)模型API聚合平台OpenRouter最新数据显示,3月16日至3月22日,全球AI大模型总调用量为20.4万亿Token,环比增长20.7%。”
2026-03-24 09:28
杂交稻的大面积推广显著提升了水稻产量,但其生产长期依赖程序复杂、成本高昂且需年年重复的杂交制种过程。
2026-03-23 09:40
近日,澳大利亚一位机器学习领域科技企业家,通过人工智能大模型自行设计肿瘤疫苗,救治自家患癌宠物犬的故事广受关注。
2026-03-23 09:39
记者从中国石化获悉,我国首套全链条国产化溶液法聚烯烃弹性体工业化装置在天津进入试运行,相关生产技术取得原创性突破,将有效缓解我国光伏等战略性新兴产业对该材料的进口依赖。
2026-03-23 09:33
加载更多