点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:人工智能“迎战”奥数难题
首页> 科技频道> 综合新闻 > 正文

人工智能“迎战”奥数难题

来源:科技日报2024-08-05 10:11

  IMO中的问题涵盖了多个数学领域。但大多数IMO问题都是用英语编写的,需要翻译成AI能理解和验证的编程语言,才能让AI进行机器学习。

  图片来源:《自然》网站

  【今日视点】

  继击败人类围棋大师和战略棋盘游戏顶尖高手之后,谷歌“深度思维”公司人工智能(AI)系统在英国巴斯举行的2024年国际数学奥林匹克竞赛(IMO)上,仅以1分之差与金牌失之交臂,获得了银牌。这是AI选手首次登上IMO领奖台。

  英国《自然》杂志网站在7月27日的报道中指出,“深度思维”正与其他公司竞相解决数学领域的疑难问题。近年来,IMO被广泛认为是对机器学习的一个挑战,也是衡量AI系统高级数学推理能力的理想基准。AI系统在今年IMO中的精彩表现,标志着其即将再下一城:在解决数学难题方面击败世界顶尖学生。

  首登领奖台

  “深度思维”公司训练了一个专门用于解答数学奥赛考题的AI系统,成功解答了6道竞赛题中的4道,获得28分(满分42分),达到本次比赛银牌获得者的水平。

  该系统包括解答数学推理问题的模型AlphaProof和解答几何问题的模型AlphaGeometry的升级版AlphaGeometry 2。其中,AlphaGeometry 2解决了一个几何问题,而AlphaProof则解答了两个代数问题和一个数论问题。

  今年1月份,AlphaGeometry在解决欧几里得几何问题上,就已表现出奖牌级选手的水平。在今年的IMO比赛前,AlphaGeometry 2已经能够解决过去25年里83%的IMO几何问题,而其“前身”仅能解决53%。

  “深度思维”公司AI科学副总裁普什米特·科利指出,这是AI系统首次达到获IMO奖牌级别的性能。IMO主席格雷戈尔·多利纳尔也表示,AI最终将能比人类更好地解决大多数数学问题,其进步速度令人惊叹。

  几乎同一时间,软件公司Numina的科学家使用语言模型,赢得了AI数学奥林匹克奖(AIMO)的首个“进步奖”。

  但Numina团队在获奖后表示,要解决更难的数学问题,仅靠语言模型可能还不够。

  与自己对抗

  AlphaProof是一个自学习系统,其核心创新在于结合预训练语言模型与AlphaZero强化学习算法的策略。强化学习是机器学习领域一种重要的学习范式,系统可通过多次尝试找到自己的解题方法。

  这种方法需要用AI能理解和验证的语言编写大量问题,而大多数IMO问题都是用英语编写的。为解决这个问题,“深度思维”团队托马斯·赫伯特及其同事使用谷歌的大语言模型Gemini,将这些问题翻译成一种名为Lean的编程语言,以供AI进行学习。

  AlphaProof使用经过微调的Gemini模型,自动将数学问题转换为Lean语言,从而创建了一个涵盖不同难度级别的大型问题库。在强化学习阶段,系统每验证一个证明,就用它来强化AlphaProof的语言模型,提高其解决后续更具挑战性问题的能力。

  赫伯特表示,在挑战围棋游戏时,他们也采用了类似的方法:AI通过与自己对抗,来学习如何更好地玩游戏。结果显示,在某些情况下,AlphaProof能够在无限多的可能性中迈出正确的一步,展现出“灵光一闪”的能力。

  仍有改进空间

  尽管AlphaProof的表现令人印象深刻,但其速度相对较慢,解决3个问题耗费了3天时间,而人类参赛者仅需4个半小时。此外,它也未能回答两个与组合数学有关的问题。

  英国数学家约瑟夫·迈尔斯审查了AI在本次IMO比赛中给出的答案。他指出,AlphaProof采取的这些技术能否予以完善还有待观察。

  英国伦敦数学科学研究所何杨辉称,AlphaProof这样的系统对于帮助数学家证明问题很有用,但它无法帮助研究人员确定需要解决和研究的问题。

  “深度思维”团队表示,他们正继续探索多种用于推进数学推理的AI方法。未来,数学研究者将与AI合作验证假说,尝试新方法来解决长期未解决的数学难题。他们也希望AlphaProof能够通过减少错误响应,帮助改进谷歌的大型语言模型。(记者 刘 霞)

[ 责编:焦子原 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 瓮马铁路南北延伸线首个站改工程顺利完成

  • 中共一大纪念馆:闭馆日变身沉浸式思政课堂

独家策划

推荐阅读
3月30日,世界数据组织正式成立并落户北京,理事长由中国科学院院士谭铁牛担任。这不仅是对谭铁牛个人学术成就的认可,更是国际社会对中国数据发展和治理能力的充分肯定,是中国科学家提升全球科技治理话语权的生动缩影。
2026-03-31 10:23
教育部30日印发《校园食品安全“十必须”》《学校食堂工作人员“十不准”》,进一步筑牢校园食品安全防线,明确中小学、幼儿园食堂不得制售冷荤类食品、生食类食品、冷加工糕点,不得加工制作四季豆、鲜黄花菜、野生蘑菇、发芽土豆等高风险食品。
2026-03-31 10:22
30日19时00分,力箭二号遥一运载火箭在东风商业航天创新试验区发射升空,将搭载的新征程01卫星、轻舟初样试飞船和天视卫星01星顺利送入预定轨道,发射任务取得圆满成功。
2026-03-31 10:17
从政策精准发力到科技赋能支撑,从风险保障兜底到绿色理念引领,每一分努力都在为全年粮食丰收积蓄力量。
2026-03-31 10:11
交通运输部、工业和信息化部、国务院国资委、市场监管总局近日联合印发《智能航运2030行动计划》,明确“十五五”期间我国智能航运发展的总体要求、重点任务和保障措施。
2026-03-31 10:10
新当选的首届理事会召开第一次会议,选举产生组织负责人,审议通过组织重要制度和规定,标志着世界数据组织完成组建将正式投入运行。
2026-03-30 14:22
截至目前,河南5300万亩高标准农田配套了数字设施,无人机飞防作业面积突破4000万亩次,AI预判让春管从“盲目应对”转向“精准发力”。在陇原大地甘肃,AI预判延伸至春耕全链条,从良种布局到苗期管护已实现全程可控。
2026-03-30 09:38
3月27日,在北京国际科幻与未来产业博览会上,他山公司的人形机器人在展示原子动作数据采集平台精细操作场景。
2026-03-30 09:35
29日,中国科学技术发展战略研究院在2026中关村论坛年会上发布《国家创新指数报告2025》,从创新资源、知识创造、企业创新、创新绩效、创新治理5个方面构建指标体系,对世界60个国家创新能力开展评价。
2026-03-30 09:32
从供给侧层面来看,主产区作物长势稳健,设施化种植规模持续扩大,春菜上市更早、供给周期更长,市场有效供给能力稳步提升。
2026-03-30 09:31
正值插秧季节,往年这时候,田里到处都“插”满了人。现在,记者在云南红河州元阳县马街乡三合寨村看到:插秧的人不见了,山脚的大块田里,“大铁牛”(插秧机)“突突突”;而在山顶的小块田里,“小铁牛”往来穿梭。正在指导春耕生产的县农机管理站站长黄冲向记者介绍:“云南的耕地,多以山地为主。
2026-03-30 09:30
实际上本轮废旧手机回收价格上涨并非全品类普涨,不同品牌、型号、配置的废旧手机,涨幅存在显著差异。
2026-03-27 10:14
在博鳌亚洲论坛2026年年会上,一位特殊的嘉宾吸引了大家的目光——博鳌亚洲论坛史上首位数字人嘉宾ViviDora正式亮相。3月25日在博鳌亚洲论坛“人形机器人的进阶与飞跃”分论坛上拍摄的机器人。
2026-03-27 09:25
这些年,中国科技产出持续攀升——高被引论文数全球占比超30%,专利授权量连年位居世界第一。在技术经理人的“撮合”下,马鹏程团队成功在新疆、陕西、宁夏、内蒙古等地的煤化工企业完成前期中试。
2026-03-27 09:23
时间回到10年前,2016年11月15日凌晨3点,中国科学院青年创新促进会学术年会的酒店房间里,武延军与计算所研究员包云岗靠在各自的床头,越聊越兴奋。编译工具链、操作系统内核及关键基础组件等基础软件的适配,是指令集架构的生态底座,它们是所有硬件和应用软件绕不开的“基础设施”。
2026-03-27 09:35
3月26日,在中关村论坛年会—RISC-V生态科技论坛上,中国科学院正式公布在RISC-V关键技术突破、产业协同创新及人才培养领域的系列重要成果,集中发布“香山”开源处理器与“如意”原生操作系统两大重要成果,并正式启动下一代芯片与操作系统的联合研发工作。
2026-03-27 09:33
粤港澳大湾区核心枢纽工程狮子洋通道关键控制性工程——狮子洋大桥实现东、西主塔封顶,转入上部结构施工阶段。
2026-03-27 09:29
26日发布的《自然》增刊《2026自然指数—中国》显示,我国在自然指数中继续居于首位。与两年前发布的上一次《自然指数—中国》增刊(数据区间为2022年8月至2023年7月)相比,多个中国机构的全球排名显著提升。
2026-03-27 09:27
26日6时51分,我国在太原卫星发射中心使用长征二号丁运载火箭,成功将四维高景二号05、06星发射升空,卫星顺利进入预定轨道,发射任务取得圆满成功。
2026-03-27 09:25
全国科学技术名词审定委员会25日发布《关于发布试用人工智能领域名词token中文名“词元”的公告》,决定在综合考量社会各界意见建议的基础上,优先推荐“词元”作为人工智能领域名词token的中文名,并面向全社会发布试用。
2026-03-26 09:23
加载更多