点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:InfoQ发布2025推理模型评测报告
首页> 科技频道> 人工智能 > 正文

InfoQ发布2025推理模型评测报告

来源:光明网2025-05-30 11:06

  5月29日,极客邦科技双数研究院InfoQ研究中心正式发布《2025推理模型评测报告》,基于逻辑推理、数学推理、多步推理、语言推理、及幻觉控制五大维度,对OpenAI O3、文心X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B等八款国内外主流推理模型展开深度评估。报告显示,文心X1 Turbo以总分第一的成绩领跑国内模型,并在幻觉控制、语言推理等核心维度展现显著优势,成为国内首个在五大评测维度中斩获最多单项冠军的推理模型。

  InfoQ研究中心指出,受“推理时计算拓展”与“可验证奖励强化学习”两大技术范式驱动,全球厂商已进入推理模型密集发布期,OpenAI o1、DeepSeek R1、 文心 X1 Turbo、Claude 3.7 Sonnet Reasoning等十余款推理模型相继上线,争夺下一代大模型的“推理入场券”。

  根据报告,文心X1 Turbo是本次评测中“单项冠军数量最多”的模型,在五大细分维度中表现亮眼:在幻觉控制方面,文心X1 Turbo以80.56%的得分位列第一,领先DeepSeek-R1、Qwen3-235B-A22B等模型,有效降低模型生成错误或误导性信息的风险;在语言推理方面,文心X1 Turbo以70.31%的得分位列第一,领先Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B等模型;在数学推理方面,OpenAI O3以81.25%的得分位列第一,文心X1 Turbo紧跟其后,位居国内第一。

  报告认为,作为国产推理模型代表,文心X1 Turbo其技术突破不仅标志着国产模型在推理能力上的里程碑式进展,更为AI从“内容生成”向“可验证逻辑执行”的跃迁提供了关键支撑。

  随着技术迭代与场景深化,推理模型把大模型从单纯的内容生成器升级为“可验证的逻辑执行器”。伴随着单场景推理深度、跨工具编排广度、在线自进化能力的同步跃升,更多新商业机会正被快速打开。(战钊)

[ 责编:张佳兴 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 乌旦塔拉 美如童话

  • “良渚之光”中美交响乐团专场音乐会举行

独家策划

推荐阅读
世界气象组织(WMO)近日报告称,2024年的大气二氧化碳浓度创下历史最大增幅,达到有记录以来的最高水平。” 
2025-10-17 09:51
10月17日,《科学》发表了庾强团队的一项重要成果。
2025-10-17 09:46
据国家粮食和物资储备局最新发布的消息,今年夏粮旺季收购已于9月底结束,累计收购小麦10795万吨。
2025-10-17 09:42
监测显示,15日新疆、西藏、青海、甘肃、内蒙古等地出现7至8级大风,局地阵风10级;新疆、内蒙古中东部、黑龙江、吉林、辽宁等地最高气温下降6℃至10℃,局地12℃以上。
2025-10-17 09:41
10月14日,随着满深502-H3井钻头穿透8380米地层,这口历经岩层卡阻、垮塌风险与高含硫考验的超深井成功完钻,成为塔里木油田“十四五”期间第223口8000米级超深井。
2025-10-17 09:38
高分辨光谱成像芯片“玉衡”,实现了亚埃米级光谱分辨率、千万像素级空间分辨率的快照光谱成像。
2025-10-16 09:50
10月13日至15日,第十四届中国国际专利技术与产品交易会在大连举行。近日,天津市河东区大王庄街社区卫生服务中心完成了天津市国产九价HPV疫苗的首针接种,而这背后,离不开专利技术的支撑。
2025-10-16 10:06
10月的上海淀山湖波光粼粼,岸边的东方绿舟国防园已万事俱备,只待“2025年全国青少年智能无人系统应用大赛(IUSAC2025)”拉开帷幕。
2025-10-16 09:48
到2027年底,在全国范围内建成2800万个充电设施,提供超3亿千瓦的公共充电容量,满足超过8000万辆电动汽车充电需求,实现充电服务能力的翻倍增长。
2025-10-16 09:48
我国自主研发的新一代超高速实时示波器正式发布,其带宽突破90GHz、达到国际先进水平,这标志着全球电子通信产业迎来超高速信号“中国标尺”。
2025-10-16 09:44
在15日举行的中国环境与发展国际合作委员会2025年年会开幕式上,生态环境部部长、国合会中方执行副主席黄润秋表示,要以美丽中国先行区建设为牵引,深化美丽中国建设推进落实机制,分级分类推进美丽中国地方实践。
2025-10-16 10:02
“经过不懈努力,中国以占世界9%的耕地、6%的淡水资源,养育了世界近1/5的人口,这本身就是对世界粮食安全的巨大贡献。钱毅介绍,目前,我国已经建成粮食储运等5个国家级科技创新平台基地,26个部级粮食技术创新中心和重点实验室,以及百余个地方研发创新平台。
2025-10-15 10:49
外交部发言人林剑14日表示,中国机器人正展现出广阔应用前景,逐步从实验室走进工厂生产线和各国百姓家。林剑介绍,国际机器人联合会此前发布的《2025年世界机器人报告》显示,2024年中国在役工业机器人存量突破200万台,居全球首位。
2025-10-15 10:45
约两年前,谷歌旗下深度思维公司宣布,借深度学习技术发现220万种新型晶体材料。科学家期待借助AI,设计出可规模化生产、真正影响日常生活的先进材料,让AI在材料科学领域的价值真正落地。
2025-10-15 10:44
盼望北极熊出现,是中国第15次北冰洋科学考察队队员进入北极圈后的心愿。午后,按照防熊预案部署,考察队决定使用直升机对其驱离,以保证冰面作业人员安全,快速完成冰上作业任务。
2025-10-15 10:40
数据显示,截至去年底,已有超6000台无人配送车投入规模化应用,为100多个细分场景用户交付上亿件订单。随着智能技术与现代物流深度融合,在城乡经济循环中,无人配送车有了更多打开方式。
2025-10-15 10:20
不久前的国庆中秋假期,人形机器人俨然成为多地商场、工厂、医院甚至众多家庭的“明星”。这款名为Galbot的人形机器人来自银河通用,已正式“入职”该智慧工厂,承担自动质检、零部件分拣与搬运等复杂任务。
2025-10-14 09:57
近日,工业和信息化部、国家标准化管理委员会印发了《云计算综合标准化体系建设指南(2025版)》(以下简称《指南》)。
2025-10-14 09:56
最长主跨跨径、最高主塔塔高、最大锚碇基础、最大主缆规模、最多车道数量……狮子洋大桥集齐了双层悬索桥的多个世界第一。
2025-10-14 09:55
加载更多