点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:人工智能“迎战”奥数难题
首页> 科技频道> 综合新闻 > 正文

人工智能“迎战”奥数难题

来源:科技日报2024-08-05 10:11

  IMO中的问题涵盖了多个数学领域。但大多数IMO问题都是用英语编写的,需要翻译成AI能理解和验证的编程语言,才能让AI进行机器学习。

  图片来源:《自然》网站

  【今日视点】

  继击败人类围棋大师和战略棋盘游戏顶尖高手之后,谷歌“深度思维”公司人工智能(AI)系统在英国巴斯举行的2024年国际数学奥林匹克竞赛(IMO)上,仅以1分之差与金牌失之交臂,获得了银牌。这是AI选手首次登上IMO领奖台。

  英国《自然》杂志网站在7月27日的报道中指出,“深度思维”正与其他公司竞相解决数学领域的疑难问题。近年来,IMO被广泛认为是对机器学习的一个挑战,也是衡量AI系统高级数学推理能力的理想基准。AI系统在今年IMO中的精彩表现,标志着其即将再下一城:在解决数学难题方面击败世界顶尖学生。

  首登领奖台

  “深度思维”公司训练了一个专门用于解答数学奥赛考题的AI系统,成功解答了6道竞赛题中的4道,获得28分(满分42分),达到本次比赛银牌获得者的水平。

  该系统包括解答数学推理问题的模型AlphaProof和解答几何问题的模型AlphaGeometry的升级版AlphaGeometry 2。其中,AlphaGeometry 2解决了一个几何问题,而AlphaProof则解答了两个代数问题和一个数论问题。

  今年1月份,AlphaGeometry在解决欧几里得几何问题上,就已表现出奖牌级选手的水平。在今年的IMO比赛前,AlphaGeometry 2已经能够解决过去25年里83%的IMO几何问题,而其“前身”仅能解决53%。

  “深度思维”公司AI科学副总裁普什米特·科利指出,这是AI系统首次达到获IMO奖牌级别的性能。IMO主席格雷戈尔·多利纳尔也表示,AI最终将能比人类更好地解决大多数数学问题,其进步速度令人惊叹。

  几乎同一时间,软件公司Numina的科学家使用语言模型,赢得了AI数学奥林匹克奖(AIMO)的首个“进步奖”。

  但Numina团队在获奖后表示,要解决更难的数学问题,仅靠语言模型可能还不够。

  与自己对抗

  AlphaProof是一个自学习系统,其核心创新在于结合预训练语言模型与AlphaZero强化学习算法的策略。强化学习是机器学习领域一种重要的学习范式,系统可通过多次尝试找到自己的解题方法。

  这种方法需要用AI能理解和验证的语言编写大量问题,而大多数IMO问题都是用英语编写的。为解决这个问题,“深度思维”团队托马斯·赫伯特及其同事使用谷歌的大语言模型Gemini,将这些问题翻译成一种名为Lean的编程语言,以供AI进行学习。

  AlphaProof使用经过微调的Gemini模型,自动将数学问题转换为Lean语言,从而创建了一个涵盖不同难度级别的大型问题库。在强化学习阶段,系统每验证一个证明,就用它来强化AlphaProof的语言模型,提高其解决后续更具挑战性问题的能力。

  赫伯特表示,在挑战围棋游戏时,他们也采用了类似的方法:AI通过与自己对抗,来学习如何更好地玩游戏。结果显示,在某些情况下,AlphaProof能够在无限多的可能性中迈出正确的一步,展现出“灵光一闪”的能力。

  仍有改进空间

  尽管AlphaProof的表现令人印象深刻,但其速度相对较慢,解决3个问题耗费了3天时间,而人类参赛者仅需4个半小时。此外,它也未能回答两个与组合数学有关的问题。

  英国数学家约瑟夫·迈尔斯审查了AI在本次IMO比赛中给出的答案。他指出,AlphaProof采取的这些技术能否予以完善还有待观察。

  英国伦敦数学科学研究所何杨辉称,AlphaProof这样的系统对于帮助数学家证明问题很有用,但它无法帮助研究人员确定需要解决和研究的问题。

  “深度思维”团队表示,他们正继续探索多种用于推进数学推理的AI方法。未来,数学研究者将与AI合作验证假说,尝试新方法来解决长期未解决的数学难题。他们也希望AlphaProof能够通过减少错误响应,帮助改进谷歌的大型语言模型。(记者 刘 霞)

[ 责编:焦子原 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 神舟二十二号与空间站完成对接

  • 我国在建最北高铁全线铺轨贯通

独家策划

推荐阅读
近日,在广西南宁举行的全国科普创作大会上,中国科普作家协会发布了2025年度十大科普热词——全国科普月、科学家精神、大模型、低空经济、人形机器人、智能体、创新文化、工业遗产、场景创新、科幻产业。
2025-11-27 05:40
近期,在一些电商平台,有买家利用AI技术制作假图,伪造商品质量问题,向商家骗取“仅退款”,引发大家关注。利用AI造假骗取退款,既反映出这些人的诚信缺失,更触碰了法律红线。
2025-11-27 09:07
在城市公共服务领域,“祥云”载人飞艇可用于大型活动期间的空中安保巡逻、交通流量监测或承担城市形象的空中展示平台。
2025-11-27 09:06
稀土纳米晶是发光材料中的“绝缘宝石”,虽具有巨大的发光潜力,却因自身局限无法被电流直接“点亮”,成为其实现光电技术产业化应用的根本瓶颈。
2025-11-27 05:40
从中国载人航天工程办公室获悉,因任务规划调整,2026年我国将组织实施天舟十号、神舟二十三号、神舟二十四号、梦舟一号4次飞行任务。
2025-11-27 05:40
广西梧州苍梧县沙头镇龙科村,稻田、房屋、道路、小河勾画出美丽丰收画卷。 春采茶、夏摘花、秋收果、冬育苗,如今在都镇湾镇,一朵朵洁白芬芳的栀子花,成了带动群众增收致富的“幸福花”。
2025-11-27 07:38
近日,自然资源部发布了矿产资源节约与综合利用先进适用技术目录(2025年版),共有376项技术入选,其中新增入选186项,与2022年版相比有了大幅更新。
2025-11-26 10:26
全国科学技术名词审定委员会近日举办2025年度工作会议暨学术年会。
2025-11-26 10:24
不久前,国务院办公厅印发《关于加快场景培育和开放推动新场景大规模应用的实施意见》,首次在国家层面对场景培育开放进行系统部署。看似细微的“场景”二字,实则内蕴驱动产业变革、催生颠覆性技术的巨大能量,是撬动全局创新的重要支点。
2025-11-26 10:22
光明日报北京11月25日电 记者温源从中交集团获悉,我国自主设计建造的新一代超大型耙吸挖泥船“通浚”轮25日在中国黄海海域成功完成全部海上试验项目,顺利返航停靠江苏启东振华船厂码头。“通浚”轮是我国首艘自主设计建造的35000立方米舱容等级超大型耙吸挖泥船,最大舱容达38168立方米,位列亚洲第一、世界第二。
2025-11-26 10:15
日前,记者来到广西南宁东部新城的宁福新能源科技有限公司生产车间,这里的机械臂精准协作,生产线正全速运转,每天超10万颗电池下线发往全球。依托面向东盟的比较优势,南宁将新能源电池产业列为核心牵引性产业,以全产业链思维开展精准招商。
2025-11-26 10:13
传统无机颜料虽然色彩稳定,却因重金属添加而存在健康风险隐患。“新型稀土环保颜料的呈色策略突破了传统颜料的局限,其出现及量产不仅解决了传统颜料有毒性、环境污染等问题,还在稳定性和生产成本上展现出显著优势。
2025-11-26 10:06
《办法》明确,卫星导航定位基准站的建设和运行维护实行统一规划、统一标准、统一监管,以“合理布局、依法备案、资源共享、保障安全”为原则,必须符合国家有关法律法规、技术规范和标准。
2025-11-25 09:43
稳步提升乡村建设水平,包括优化乡村规划布局、推进基础设施提档升级、推动公共服务普惠均等、探索创新乡村建设推进方式等。
2025-11-25 09:40
机器人完成一个后空翻动作,关节转动误差需控制在0.5度以内;医疗植入人体的陶瓷关节,表面粗糙度若超过0.1微米
2025-11-25 03:05
党的二十届四中全会指出,“加快人工智能等数智技术创新,突破基础理论和核心技术,强化算力、算法、数据等高效供给”。
2025-11-25 03:05
11月24日,中国科学院国家空间科学中心召开空间科学先导专项最新亮点成果发布会,集中发布了空间科学卫星任务在宇宙暂现天体、宇宙线传播、太阳爆发等领域取得的系列重大科学突破。
2025-11-25 03:05
随着人工智能技术的飞速发展,各个领域都在发生深刻变革,教育系统也刮起了AI风。
2025-11-25 03:05
燕矶长江大桥是亚洲首个专业货运枢纽机场——鄂州花湖国际机场的重要配套工程,是鄂黄第二过江通道的重要组成部分。
2025-11-24 09:02
11月23日,由中国半导体行业协会、中国电子信息产业发展研究院主办的第二十二届中国国际半导体博览会在北京开幕。
2025-11-24 03:15
加载更多