点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI机器人会考试,不会看病
首页> 科技频道> 综合新闻 > 正文

AI机器人会考试,不会看病

来源:中国科学报2025-01-07 09:57

  一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在通过与患者交谈从而诊断疾病方面仍然不及格。1月2日,相关研究成果发表于《自然-医学》。

  美国哈佛大学的Pranav Rajpurkar说:“虽然大型语言模型在测试中的表现令人印象深刻,但在动态对话中,它们的准确性明显下降,尤其是难以进行开放式诊断推理。”

  研究人员开发出一种方法,基于模拟医患对话评估“临床AI”模型的推理能力。这些“患者”基于2000个医疗案例。这些案例主要来自美国医学委员会的专业考试。

  同样来自哈佛大学的Shreya Johri说:“模拟医患互动可以评估病史采集技能,这是临床实践的一个关键组成部分。”她表示,新的评估基准被称为CRAFT-MD,“反映了现实生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在回答特定问题时才会披露重要信息”。

  CRAFT-MD基准本身依赖于AI。美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还通过将“临床AI”的诊断结果与每个病例的正确答案进行比较来评分。人类医学专家对这些评估进行了复核。他们还审查了对话,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的医疗信息。

  多项实验表明,4种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4、美国Meta公司的Llama-2-7b和法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表现远不如根据书面摘要进行诊断时的表现。

  例如,当提供结构化的病例摘要并允许从多项答案中作出选择时,GPT-4的诊断准确率高达82%,而没有多项选择时,其诊断准确率则降至49%以下。然而,当它不得不通过与模拟的患者对话进行诊断时,准确率降至26%。

  在这项研究中,通常GPT-4是表现最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。

  AI模型在大多数情况下未能收集完整的病史,比如GPT-4仅在71%的模拟患者对话中做到了这一点。即使AI模型收集了患者的相关病史,它们也并不总是能够作出正确的诊断。

  美国斯克利普斯研究转化研究所的Eric Topol表示,模拟患者对话代表了一种比医学考试“更有用”的评估AI临床推理能力的方法。

  Rajpurkar说,即使一个AI模型最终通过了这一基准,能够根据模拟的患者对话持续作出准确诊断,也并不一定意味着它就优于人类医生。他指出,现实世界中的医疗实践比模拟的“更混乱”,涉及管理多名患者、与医疗团队协调、进行身体检查,以及了解当地医疗情况中“复杂的社会和系统因素”。“AI是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”Rajpurkar说。 (文乐乐)

  相关论文信息:

  https://doi.org/10.1038/s41591-024-03328-5

  《中国科学报》 (2025-01-07 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 中国大熊猫保护研究中心迎来今年国内首只大熊猫幼崽

  • 2026味到京城美食节点亮北京夏日经济

独家策划

推荐阅读
据英国《自然》网站9日报道,美国生命生物科学公司当天宣布,首次通过细胞“部分重编程”疗法,尝试让一名青光眼患者眼部受损的衰老细胞“返老还童”。
2026-06-12 09:32
一项发表于《科学》杂志的最新研究,绘制了首张全球菌根真菌“地下网络”分布图。这是继去年《自然》杂志发表菌根真菌多样性全球分析之后,科学家首次实现对其物理密度的全球可视化。
2026-06-12 09:29
斯坦福大学数学家贾里德·杜克尔·利希特曼在社交平台X上将这种现象类比为国际象棋中的“非常规开局”,认为AI有时能跳出人类长期形成的“审美与惯例”。
2026-06-12 09:28
在前不久举行的第三十四届哈尔滨国际经济贸易洽谈会上,哈尔滨工程大学智能海洋航行器技术全国重点实验室的展台前,围满了参观者。
2026-06-12 09:27
如今,智谱的大模型已经成为全球众多顶级云服务商和知名编程平台的“默认选项”之一,深受海外开发者的欢迎。如果说智谱代表了AI通用大模型在信息空间的实力,那么北京科学智能研究院则展示了AI征服物理和微观世界的强大力量。
2026-06-12 09:26
“在洞窟里,把冷光灯打开,面对着千年壁画的那一刻,所有的烦恼都会瞬间远离,觉得能近距离接触如此杰出的艺术品,是很震撼、很幸运又很幸福的事。遵循这一“笨规矩”,于宗仁组织完成了莫高窟与甘肃省内外多处壁画彩塑保护方案与实施工作,例如莫高窟千像塔彩塑保护修复、莫高窟第196窟壁画彩塑保护修复,以及麦积山石窟部分洞窟的塑像壁画保护修缮等。
2026-06-11 10:23
国际科技出版机构施普林格·自然10日发布的自然指数2026科研领导者榜单显示,中国继续保持全球第一,2024年至2025年科研产出增长22.4%,是全球十强中唯一实现两位数增长的国家。机构表现方面,自然指数显示,中国科学院整体排名位列榜首,在除健康科学和社会科学以外的5个学科领域位居第一。
2026-06-11 10:23
量子传感是一种利用量子效应进行高精度测量的新技术。量子传感可通过增加粒子数量来提高传感性能,然而这面临一个重要挑战——量子热化。“这不仅深化了人们对量子热化这一基础科学问题的认识,也为发展新一代高灵敏度量子传感器提供了新的思路。
2026-06-11 10:23
扎根智能制造一线,很多像马遵农一样的年轻人用技术创新护航制造业转型升级。如今,基于模型的系统工程等方法已应用于飞机制造的各个环节,新工艺的研发更高效、更精准、更节约。
2026-06-11 10:23
阶段扩建,计划新增一个综合舱段,让空间站整体构型从“T”字变为“十”字。从初具规模的三舱组合,到不断扩容升级,中国空间站的成长,是中国载人航天稳步发展的缩影。
2026-06-11 10:23
6月9日16时23分,朱雀二号改进型遥六运载火箭在东风商业航天创新试验区发射升空。
2026-06-10 09:57
6月8日,火烈鸟在盐湖湿地嬉戏,成为一道亮丽风景线。
2026-06-10 09:57
日前,长江干线首个“复式航道”在安徽土桥水道和大通水道试运行,预计每日分流200余艘上行浅吃水船舶。
2026-06-10 09:52
近年,智能除锈凝胶与高相容性的新型加固材料的研发与成功应用,分别为脆弱青铜器无损清除锈蚀病害与矿化层加固提供了创新方法。
2026-06-10 09:51
为了让更多患者在关键时刻“用得上、用得起”,一群年轻的航天人坚定踏上了国产ECMO攻关之路。
2026-06-10 09:48
作为长江、黄河、澜沧江发源地,青海多年来持续推进三江源水生生物资源保护修复,持续巩固青海省高原河湖生态屏障。据悉,此次大批量土著鱼苗放流,进一步充实了黄河上游鱼类资源储备,对修复河道生物群落、改善水域生态环境具有积极作用。
2026-06-09 09:57
记者从自然资源部中国地质调查局获悉,“海洋地质六号”船近日完成深海地质调查第16航次科考任务,在深海地质环境调查、海洋探测关键技术装备研发应用等方面取得多项成果。
2026-06-09 09:56
培育新质生产力、建设现代化产业体系,是推动经济高质量发展、夯实中国式现代化产业根基的重要任务。未来产业依托前沿技术与颠覆性创新引领发展方向,赋能传统产业与新兴产业,拓展发展边界、培育全新增长点。
2026-06-09 09:52
人工智能与数智技术的发展,无疑是当下人们最为关切的议题之一。
2026-06-09 09:50
耕地是保障粮食安全的根本。当前,我国耕地质量总体呈现稳中有升良好态势,东北黑土地保护性耕作面积持续扩大,南方酸化耕地治理和北方盐碱地改造利用均取得积极进展。
2026-06-09 09:36
加载更多