清华×斯坦福团队Ctrl-World世界模型登顶具身智能榜单

来源：光明网2026-02-26 17:40

　　光明网讯 春晚上，中国机器人的精彩表现让人印象深刻，今日，来自清华和斯坦福的联合研发团队，又在具身智能核心技术层面交出了一份亮眼答卷。

　　2月26日发布的全球具身智能领域的权威评测World Arena榜单上，由清华大学陈建宇（星动纪元创始人）团队与斯坦福大学 Chelsea Finn（Physical Intelligence联合创始人）团队联合研发的 Ctrl-World 世界模型，在具身任务能力上斩获全球第一，击败了包括谷歌Veo 3.1、英伟达Cosmos-Predict 2.5在内的世界顶尖模型。同时，其视频生成能力也排名全球第二，仅次于阿里团队的Wan 2.6，超越了谷歌和英伟达的产品。

　　要理解Ctrl-World的突破，首先需要了解什么是“世界模型”。通俗地说，世界模型是一个为机器人打造的“高级虚拟训练场”，它不仅能生成逼真的视频画面，更重要的是，它内置了重力、摩擦力、空间逻辑等物理规则。研究者可以让机器人在这个虚拟世界里进行无数次“模拟考试”，学会各种技能，再把学到的本领应用到现实世界中，从而大幅降低真实测试的成本与风险。

　　榜单显示，Ctrl-World在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上全部登顶。

　　在主体一致性上，它以0.8411的得分位居全球第一，这意味着模型生成的物体在视频中能保持形状、颜色稳定，不漂移不变形，为机器人提供了高保真的“数字孪生”交互对象。

　　在轨迹精度上，它以0.4766的得分同样排名榜首，生成的机械臂运动轨迹与真实物理轨迹几乎完全吻合，动作精准连贯。

　　在深度准确性上，它以0.9300的得分跻身全球第一梯队，模型对三维空间结构把握精准，能避免机器人在抓取、堆叠等操作中因“空间感知偏差”导致的抓空、碰撞问题。

　　在策略评估一致性指标方面，Ctrl-World以高达0.986的Pearson相关系数（满分1分）登顶全球第一，相比之下，英伟达Cosmos-Predict 2.5的相关性仅为0.483。这意味着Ctrl-World的虚拟测试结果更值得信赖，开发者可以用虚拟测试替代部分真实环境测试，从而大幅降低在真实世界中反复测试的高昂成本。

清华×斯坦福团队Ctrl-World世界模型登顶具身智能榜单

Ctrl-World的策略评估一致性结果

　　此次Ctrl-World登顶的WorldArena榜单，由清华大学牵头，联合普林斯顿大学、新加坡国立大学、北京大学等8所全球顶尖学术机构共同研发，围绕“真能干活”设计评测体系，涵盖16大核心指标和3大真实应用任务。评测中，70位专业标注者对3500个视频进行主观校验，确保结果贴近人类对“实用”的直觉判断。（记者李欣哲）

[ 责编：田新宇 ]

阅读剩余全文（）