点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:OpenAI最新模型o3展现强大推理能力
首页> 科技频道> 综合新闻 > 正文

OpenAI最新模型o3展现强大推理能力

来源:科技日报2024-12-26 09:40

  ◎科技日报记者 刘 霞

  12月20日,美国开放人工智能研究中心(OpenAI)介绍了其最新的人工智能(AI)推理模型——o3及其轻量版o3-mini。该公司宣称,o3具备更先进、近似人类的推理能力,在代码编写、数学竞赛和掌握人类博士级别的科学知识等方面,均超越了其“前辈”o1。

  不过,英国《新科学家》网站在12月22日的报道中指出,尽管o3“实现了令人瞩目的性能飞跃”,但仍未达到业内翘首以盼的通用AI(AGI)水平。

  o3虽然多方面性能均超越其“前辈”o1,但与人类智能仍存在根本差异。图片来源:美国趣味工程网站

  OpenAI宣布其新一代AI模型o3取得了突破性成就。图片来源:英国《新科学家》网站

  多方面表现出色

  OpenAI公司透露,在解决更复杂的多步骤问题时,o3模型会花更多时间计算答案,然后再给出回应。这一推理能力的提升,使o3在多项测试中表现出色。

  大型语言模型热衷于在各种数学基准测试上疯狂“刷分”,o3也不例外。在2024年美国数学邀请赛中,o3模型的准确率高达96.7%,仅答错了一个问题。而在OpenAI研究人员认为最严格的基准测试之一——Frontier Math中,o3也解决了25.2%的问题。尽管这一得分看似不高,但此前其他大型语言模型曾在此“集体翻车”,正确率均未超过2%。

  Frontier Math测试难度极大,曾被华裔数学家、菲尔兹奖得主陶哲轩评价为“可能会难住AI好几年”。然而,o3只需思考几分钟便能解答其中一道题目,而人类数学家则要花费数小时到数天。

  在对科学知识的掌握方面,o3的表现也超出一般博士水平。在GPQA Diamond(衡量模型在博士级科学问题上的表现,涵盖化学、物理和生物学方面的专业知识)基准测试中,o3的准确率达到87.7%,超过了人类博士的70%,也比之前o1表现高近10%。

  此外,o3的编码能力也比之前的o1系列更胜一筹。在 SWE-bench Verified(衡量AI模型解决现实世界软件问题的能力)基准上,o3的准确率约为71.7%,比o1高20%以上。在Codeforces编码竞赛平台中,o3的得分为2727,相当于榜单上第175名人类编程员的水平,而o1得分仅为1891。

  在展示了o3取得的这些傲人成绩后,OpenAI首席执行官奥尔特曼强调,o3的出现标志着AI进入了下一个发展阶段,这些模型可处理需要大量推理的复杂任务。

  与人类智能仍有差异

  《新科学家》网站还报道,在被视为AGI重要衡量标准的抽象与推理语料库-AGI(ARC-AGI)大赛中,o3模型也创下新纪录:在低算力配置下,它以75.7%的得分登上公共排行榜前列。只因确定此项大奖得主的测试具有更严格的算力限制,在该算力限制下,o3的挑战以失败告终。

  不过,在超出官方算力限制172倍的高算力下,o3采用“蛮力”取得了87.5%的成绩,达到了代表人类水平的85%门槛。

  对于o3的表现,谷歌前工程师、ARC-AGI主要创建者弗朗索瓦·肖莱在博客中写道,这是AI能力的一次惊人且重要的跃升。但o3尚未实现AGI,因为其仍然无法解决ARC-AGI比赛中一些非常简单的问题,这表明其与人类智能存在根本差异。

  AGI是一个假想中的未来系统,它能够模仿人类思维、决策,拥有自我意识,并能自主行动。然而,AGI目前主要活跃在科幻作品中,尚未走进现实。

  升级迭代并非易事

  o3不仅是OpenAI公司的最新力作,也是AI巨头竞逐大型语言模型的生动写照。

  两年前,OpenAI发布了ChatGPT,由此拉开了AI军备竞赛的序幕。从GPT-3.5到更准确、更具创造性的GPT-4,再到o1,直至o3,OpenAI在不断精进自家产品。

  其他顶级AI开发商也在利用日益先进的技术,推动自家产品迭代升级。此前不久,谷歌推出了其旗舰模型“双子座”(Gemini)的新版本,据称其速度是上一代的两倍,并且能够“思考、记忆、规划,甚至替代用户采取行动”。元宇宙平台公司计划明年推出Llama 4。

  然而,迭代之路并非坦途。包括OpenAI和谷歌在内的几家领军企业,正面临新模型开发耗资巨大但回报递减的困境。OpenAI的GPT-5模型开发工作进展缓慢。据悉,仅6个月的训练,单计算成本就高达约5亿美元,而性能仅比该公司现有产品略胜一筹。

[ 责编:田新宇 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 甘肃金塔:避险搬迁暖民心

  • 四川夹金山雪后风景如画

独家策划

推荐阅读
(2002年6月29日第九届全国人民代表大会常务委员会第二十八次会议通过 2024年12月25日第十四届全国人民代表大会常务委员会第十三次会议修订)
2024-12-26 10:37
12月25日,十四届全国人大常委会第十三次会议表决通过新修订的科学技术普及法,该法自公布之日起施行。其中规定,每年9月为全国科普月。
2024-12-26 09:37
从古至今,工程使技术和科学发挥生产力的功能,反映国家或组织机构的科技水平、创新能力和综合实力。
2024-12-26 09:31
激光器广泛应用于通信、医学成像与手术、消费电子等领域,它深刻改变了大众的生活。
2024-12-26 09:30
国家统计局25日公布的数据显示,2024年全国棉花播种面积4257.4万亩,比上年增加75.2万亩,增长1.8%;单产144.8公斤/亩,比上年增加10.4公斤/亩,增长7.8%;产量616.4万吨,比上年增加54.6万吨,增长9.7%。
2024-12-26 09:19
日前,福州大学化学学院学生吴一迪及其团队的项目在第十九届“挑战杯”全国大学生课外学术科技作品竞赛获得一等奖和全国特等奖。
2024-12-26 09:18
十四届全国人大常委会第十三次会议12月25日表决通过了新修订的科学技术普及法,自公布之日起施行。新修订的科学技术普及法扩充至8章60条,聚焦科普发展中的突出问题,完善体制机制,主要包括明确科普的总体要求和目标方向、强化科普社会责任、促进科普活动、加强科普队伍建设、强化保障措施等内容。
2024-12-25 09:23
在中山站区的西南高地上,远远地能看到冰面上有一个绿色的半球形建筑。中国第40次南极考察队中山站越冬队队员张方根:前面这里有一个淡水湖,相当于是雪水融化的,形成了一个淡水湖,常年都有。
2024-12-25 09:23
目前还没有预防诺如病毒感染的疫苗,搞好个人卫生、食品卫生和饮水卫生是预防的关键。中国疾控中心传染病管理处研究员常昭瑞:“如果家中有急性胃肠炎病例出现的时候,定时地要对家庭中接触频繁的部位,比如说门把手卫生间等进行定时的消毒。
2024-12-25 09:23
由中国科协推荐的中国科学院院士朱永官以高票当选会员事务副主席,任期为2025-2028年。
2024-12-25 09:13
“热爱祖国、无私奉献,自力更生、艰苦奋斗,大力协同、勇于攀登”“两弹一星”精神这十六个字,正映射着朱光亚的一生。
2024-12-25 09:11
据《自然》报道,经过数月攀爬,美国国家航空航天局(NASA)的“毅力”号火星车终于到达了一个火星陨石坑的边缘。
2024-12-24 09:59
浙江大学医学院教授马欢团队围绕大脑生物能量神经可塑性调控与认知衰老开展了研究,发现在学习记忆或者人工诱导的神经活动下,神经元突触附近的线粒体基因转录显著增加,促进大脑能量供给。
2024-12-24 09:58
2024年,中国科技界捷报频传,大国重器亮点纷呈,科技成果竞相涌现。一项项科技成果,不仅标注着科技发展的中国高度,也为全球科技发展注入强劲动力。
2024-12-24 09:57
凤凰山脚下,由十多栋楼房组成的深圳先进电子材料国际创新研究院安静整洁,完全看不出这里曾是繁忙的工业厂房。隔着厚厚的玻璃,张国平告诉记者:“那台不锈钢反应釜正在进行临时键合材料工程化放大试验。
2024-12-24 09:48
放眼全国,各地积极发挥科技创新的支撑作用,加快发展新质生产力,引领现代化产业体系建设,为高质量发展提供强劲推动力、支撑力。
2024-12-24 09:46
“这些可降解植入的‘骨头’,都是微细粉末颗粒通过3D打印制造出来的。”熊仕显介绍,该研究院拥有澳大利亚两院院士、中国工程院外籍院士余艾冰,中国科学院院士郭烈锦,以及帅词俊、赵宝军、陈斌等国家级人才。
2024-12-23 10:22
科学技术普及法修订草案二次审议稿(以下简称“草案二审稿”)12月21日上午提请十四届全国人大常委会审议。草案二审稿规定,“科学技术人员和教师应当发挥自身优势和专长,积极参与和支持科普活动”。
2024-12-23 10:22
中科院古脊椎动物与古人类所研究员黄万波日前介绍,经过1985年至2024年的五轮系统发掘,研究人员已从巫山龙骨坡遗址采集到118种哺乳动物化石和超过2000件石制品。最近的古地磁测年结果表明,这些化石和石制品形成时间为距今200万至250万年,其中超过一半的哺乳动物化石为上新世至早更新世的属种。
2024-12-23 03:55
新质生产力具有高科技、高效能、高质量特征,发展新质生产力,必须充分发挥科技创新的引领作用,以科技创新开辟发展新领域新赛道,塑造发展新动能新优势。
2024-12-23 03:55
加载更多