点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:人工智能“迎战”奥数难题
首页> 科技频道> 综合新闻 > 正文

人工智能“迎战”奥数难题

来源:科技日报2024-08-05 10:11

  IMO中的问题涵盖了多个数学领域。但大多数IMO问题都是用英语编写的,需要翻译成AI能理解和验证的编程语言,才能让AI进行机器学习。

  图片来源:《自然》网站

  【今日视点】

  继击败人类围棋大师和战略棋盘游戏顶尖高手之后,谷歌“深度思维”公司人工智能(AI)系统在英国巴斯举行的2024年国际数学奥林匹克竞赛(IMO)上,仅以1分之差与金牌失之交臂,获得了银牌。这是AI选手首次登上IMO领奖台。

  英国《自然》杂志网站在7月27日的报道中指出,“深度思维”正与其他公司竞相解决数学领域的疑难问题。近年来,IMO被广泛认为是对机器学习的一个挑战,也是衡量AI系统高级数学推理能力的理想基准。AI系统在今年IMO中的精彩表现,标志着其即将再下一城:在解决数学难题方面击败世界顶尖学生。

  首登领奖台

  “深度思维”公司训练了一个专门用于解答数学奥赛考题的AI系统,成功解答了6道竞赛题中的4道,获得28分(满分42分),达到本次比赛银牌获得者的水平。

  该系统包括解答数学推理问题的模型AlphaProof和解答几何问题的模型AlphaGeometry的升级版AlphaGeometry 2。其中,AlphaGeometry 2解决了一个几何问题,而AlphaProof则解答了两个代数问题和一个数论问题。

  今年1月份,AlphaGeometry在解决欧几里得几何问题上,就已表现出奖牌级选手的水平。在今年的IMO比赛前,AlphaGeometry 2已经能够解决过去25年里83%的IMO几何问题,而其“前身”仅能解决53%。

  “深度思维”公司AI科学副总裁普什米特·科利指出,这是AI系统首次达到获IMO奖牌级别的性能。IMO主席格雷戈尔·多利纳尔也表示,AI最终将能比人类更好地解决大多数数学问题,其进步速度令人惊叹。

  几乎同一时间,软件公司Numina的科学家使用语言模型,赢得了AI数学奥林匹克奖(AIMO)的首个“进步奖”。

  但Numina团队在获奖后表示,要解决更难的数学问题,仅靠语言模型可能还不够。

  与自己对抗

  AlphaProof是一个自学习系统,其核心创新在于结合预训练语言模型与AlphaZero强化学习算法的策略。强化学习是机器学习领域一种重要的学习范式,系统可通过多次尝试找到自己的解题方法。

  这种方法需要用AI能理解和验证的语言编写大量问题,而大多数IMO问题都是用英语编写的。为解决这个问题,“深度思维”团队托马斯·赫伯特及其同事使用谷歌的大语言模型Gemini,将这些问题翻译成一种名为Lean的编程语言,以供AI进行学习。

  AlphaProof使用经过微调的Gemini模型,自动将数学问题转换为Lean语言,从而创建了一个涵盖不同难度级别的大型问题库。在强化学习阶段,系统每验证一个证明,就用它来强化AlphaProof的语言模型,提高其解决后续更具挑战性问题的能力。

  赫伯特表示,在挑战围棋游戏时,他们也采用了类似的方法:AI通过与自己对抗,来学习如何更好地玩游戏。结果显示,在某些情况下,AlphaProof能够在无限多的可能性中迈出正确的一步,展现出“灵光一闪”的能力。

  仍有改进空间

  尽管AlphaProof的表现令人印象深刻,但其速度相对较慢,解决3个问题耗费了3天时间,而人类参赛者仅需4个半小时。此外,它也未能回答两个与组合数学有关的问题。

  英国数学家约瑟夫·迈尔斯审查了AI在本次IMO比赛中给出的答案。他指出,AlphaProof采取的这些技术能否予以完善还有待观察。

  英国伦敦数学科学研究所何杨辉称,AlphaProof这样的系统对于帮助数学家证明问题很有用,但它无法帮助研究人员确定需要解决和研究的问题。

  “深度思维”团队表示,他们正继续探索多种用于推进数学推理的AI方法。未来,数学研究者将与AI合作验证假说,尝试新方法来解决长期未解决的数学难题。他们也希望AlphaProof能够通过减少错误响应,帮助改进谷歌的大型语言模型。(记者 刘 霞)

[ 责编:焦子原 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 农历马年将至,内蒙古博物院近期推出“马舞新春——丙午马年全球生肖文化联展”,展览汇集400余幅“马”题材文物和艺术品的图片,精选近50件(套)文物,吸引了大量市民和游客前来观展。

  • 2月7日,一场为期四天的新春花事拉开2026年圆明园新春游园会序幕。

独家策划

推荐阅读
近日,国家管网集团西部管道公司成功完成所辖新疆段天然气、原油、成品油管道输送全生命周期碳足迹核算,获得中国质量认证中心颁发的“产品碳足迹证书”。
2026-02-06 09:18
近日,中国农业科学院蔬菜花卉研究所蔬菜分子设计育种创新团队研发出新型植物基因研究工具——对目标DNA序列的邻近空间蛋白标记系统。
2026-02-06 09:38
因为像了解自己的孩子一样了解黑土地,韩晓增有个外号——“黑土地的营养搭配师”。他带领团队精心配制出一套营养搭配的“秘方”。
2026-02-06 09:33
蚊种与病毒之间存在高度匹配关系。1901年,公共卫生与热带医学领域先驱沃尔特·里德证明,蚊子是传播黄热病的元凶。科学界传统观点认为,病毒以颗粒形式在蚊子体内传播,却始终不知道真正的“病毒受体”是什么。
2026-02-06 09:31
科技创新和产业创新的深度融合,不仅是构建现代化产业体系的战略举措,更是贯彻新发展理念、推动高质量发展、加快构建新发展格局的重要抓手。
2026-02-06 09:13
2025年我国人均粮食占有量达到508.9公斤,远超国际公认的400公斤的安全线,粮食等重要农产品供给丰富、市场平稳、储备充足。
2026-02-05 10:15
一代代南来北往的科研“候鸟”安心在三亚当起了“留鸟”,南繁热土上,他们用坚守加速农业科研进程,守护着国家粮食安全的希望。
2026-02-05 10:06
工业和信息化部等八部门近日联合印发《汽车数据出境安全指引(2026版)》,推动建立高效便利安全的汽车数据跨境流动机制,提升汽车数据出境便利化水平。
2026-02-05 10:03
月球表面的年龄是揭示其演化奥秘的基础。对于月球上未采样的区域,科学家主要依靠统计撞击坑的密度来估算年龄:区域越古老,撞击坑通常越密集。
2026-02-06 09:14
近日,内蒙古大学化学化工学院刘健教授、王艳琴副教授团队在节能制绿氢联产高附加值化学品领域取得重大突破,在《自然》子刊发表研究成果。
2026-02-05 10:01
近日,四川达州宣汉县深层海相钾盐资源分采分运攻关实验配套装置顺利完成试车,成功提取出高纯度氯化钾产品。
2026-02-05 10:01
我国互联网事业的蓬勃发展,既为“十四五”收官交出了亮眼答卷,也为“十五五”布局奠定了坚实基础。
2026-02-05 10:12
L5点位于地球的“后方”,位于该点的人造探测器无需消耗太多燃料就可以稳定长期驻留,因此“羲和二号”的设计寿命将长达7年。
2026-02-04 09:13
《月令七十二候集解》记载:“立,建始也”,“立”即“开始”之意。那么,立春的“立”,意味着怎样的开始?
2026-02-04 09:34
寒冬腊月,新春的氛围已在市井烟火中渐渐浓厚。进入寒假的第7天,在位于青岛的山东科技大学土木工程与建筑学院办公室里,教授李为腾和研究生杨光辉正在讨论工作。
2026-02-04 09:27
进藏工作10余年,那曲市农牧业(草业)科技研究推广中心畜牧师何世丞感慨颇深:“保护这片广袤而脆弱的草原,挑战不小,但我们一直在行动。”
2026-02-04 09:32
桥式起重机的轰响打破宁静,长十余米、重数十吨的火箭芯一级被缓缓吊离托座。操作手董磊手持控制设备,眼睛紧盯箭体,每一个动作都专注、沉稳。
2026-02-04 09:20
在人工智能(AI)和大数据时代背景下,高性能计算的战略地位已可与高能望远镜、同步辐射光源和粒子加速器等重大科研基础设施相提并论
2026-02-03 14:09
2月1日,农业农村部发布的《农产品质量安全承诺达标合格证管理办法》(以下简称《办法》)正式施行,我国农产品全面启用新版“身份证”——农产品质量安全承诺达标合格证。
2026-02-03 09:48
近日,记者从中国科学院空天信息创新研究院(以下简称空天院)获悉,该院成功开展超百G星地激光通信业务化应用实验,通信速率达到120吉比特每秒(Gbps)。”
2026-02-03 09:40
加载更多