点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI机器人会考试,不会看病
首页> 科技频道> 综合新闻 > 正文

AI机器人会考试,不会看病

来源:中国科学报2025-01-07 09:57

  一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在通过与患者交谈从而诊断疾病方面仍然不及格。1月2日,相关研究成果发表于《自然-医学》。

  美国哈佛大学的Pranav Rajpurkar说:“虽然大型语言模型在测试中的表现令人印象深刻,但在动态对话中,它们的准确性明显下降,尤其是难以进行开放式诊断推理。”

  研究人员开发出一种方法,基于模拟医患对话评估“临床AI”模型的推理能力。这些“患者”基于2000个医疗案例。这些案例主要来自美国医学委员会的专业考试。

  同样来自哈佛大学的Shreya Johri说:“模拟医患互动可以评估病史采集技能,这是临床实践的一个关键组成部分。”她表示,新的评估基准被称为CRAFT-MD,“反映了现实生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在回答特定问题时才会披露重要信息”。

  CRAFT-MD基准本身依赖于AI。美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还通过将“临床AI”的诊断结果与每个病例的正确答案进行比较来评分。人类医学专家对这些评估进行了复核。他们还审查了对话,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的医疗信息。

  多项实验表明,4种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4、美国Meta公司的Llama-2-7b和法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表现远不如根据书面摘要进行诊断时的表现。

  例如,当提供结构化的病例摘要并允许从多项答案中作出选择时,GPT-4的诊断准确率高达82%,而没有多项选择时,其诊断准确率则降至49%以下。然而,当它不得不通过与模拟的患者对话进行诊断时,准确率降至26%。

  在这项研究中,通常GPT-4是表现最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。

  AI模型在大多数情况下未能收集完整的病史,比如GPT-4仅在71%的模拟患者对话中做到了这一点。即使AI模型收集了患者的相关病史,它们也并不总是能够作出正确的诊断。

  美国斯克利普斯研究转化研究所的Eric Topol表示,模拟患者对话代表了一种比医学考试“更有用”的评估AI临床推理能力的方法。

  Rajpurkar说,即使一个AI模型最终通过了这一基准,能够根据模拟的患者对话持续作出准确诊断,也并不一定意味着它就优于人类医生。他指出,现实世界中的医疗实践比模拟的“更混乱”,涉及管理多名患者、与医疗团队协调、进行身体检查,以及了解当地医疗情况中“复杂的社会和系统因素”。“AI是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”Rajpurkar说。 (文乐乐)

  相关论文信息:

  https://doi.org/10.1038/s41591-024-03328-5

  《中国科学报》 (2025-01-07 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 春到京城探桃花

  • 迪拜至杭州航线复航 数百名同胞乘机回国

独家策划

推荐阅读
从实验室的“青苹果”到产业端的“金苹果”,距离有多远?2026年全国两会期间,两位代表分享了他们的探索实践。
2026-03-09 09:46
加快科技自立自强,既是破解产业升级瓶颈的重要支撑,也是抢占未来产业新赛道、培育新质生产力的关键依托。
2026-03-09 09:45
在全国两会会场,记者见到了贵州省六盘水市水城区农业农村局农业综合开发中心主任杨恩兰代表,聊起了她来京前的“田间故事”。
2026-03-09 09:44
杨建成委员介绍,经过几十年发展,我国布局建造了一批重大科技基础设施。
2026-03-09 09:43
中国工程院院士,第十四届全国人大常委会委员、农业与农村委员会副主任委员唐华俊代表:为此,建议推动在农业法、乡村振兴促进法等相关法律法规中增设专章专节部署农业资源区划工作。
2026-03-09 09:27
粮食安全,是“国之大者”。3月5日提请十四届全国人大四次会议审查的“十五五”规划纲要草案提出“十五五”时期主要目标和重大任务,明确粮食综合生产能力达到1.45万亿斤左右。
2026-03-06 09:35
我国科技成果大量涌现,人形机器人大放异彩,开源大模型领跑全球,芯片攻关取得新突破,创新药迅猛发展。
2026-03-06 09:31
生态环境法典草案规定,国家根据需要在长江、黄河、青藏高原等重要流域、区域建立协调机制,统筹指导、综合协调长江、黄河、青藏高原等重要流域、区域的生态环境保护等工作。
2026-03-06 09:29
“十五五”时期,开展生态保护修复成效评估、科学开展大规模国土绿化,将确保生态保护修复走得更稳、更实、更远。
2026-03-06 09:27
当前,新一轮科技革命和产业变革加速突破,我国经济基础稳、优势多、韧性强、潜能大,中国特色社会主义制度优势、超大规模市场优势、完整产业体系优势、丰富人才资源优势更加彰显。
2026-03-06 09:25
(记者冯丽妃)3月4日,全国政协十四届四次会议首场“委员通道”集体采访活动在北京人民大会堂举行。”  令人欣慰的是,潘建伟表示,通过国家重大科研任务的锤炼,我国量子科技研究队伍呈现年轻化、跨学科交叉的特点,并且兼具前沿探索和工程攻关的能力。
2026-03-05 09:56
全国人大代表、广东茂名化州市培林橘红种植专业合作社社长廖志略带来的化橘红树苗。这是全国人大代表、广东茂名化州市培林橘红种植专业合作社社长廖志略制作的集纳了乡亲们笑脸的3D照片。
2026-03-05 09:56
在天津市滨海新区,海上油气平台建设工人操作打磨机器人。不仅是我们团队,金凤实验室已为入驻科学家搭建病理表型组平台、纳米合成平台等8个国际领先的科研平台,提供科研设施设备超过6000台套。
2026-03-05 09:56
中国科学院广州地球化学研究所王强研究员团队联合国际合作者的一项最新研究给出了答案:高原并非一直向上生长,而是经历了两次“抬升—沉降”的起伏旋回。“青藏高原的生长不是简单的‘长高’,而是多阶段‘抬升—沉降’交替的结果。
2026-03-05 09:56
全国政协委员、宁德时代新能源科技股份公司董事长曾毓群从产业实战经历出发,分享了独属我国新能源事业的攀登故事。他坚信,秉持攀登精神、锚定目标,脚踏实地、勇毅笃行,就没有越不过去的险峰,就没有实现不了的梦想!
2026-03-05 09:56
在从事概率地震危险性分析、地震灾害风险评估工作中,我深刻感受到新兴技术发展日新月异,大大提升了我国的防灾减灾能力。
2026-03-04 09:42
从火星之上的精细探测,到地球深处探测的装备突破,我们用持续的创新创造,把关键核心技术牢牢掌握在中国人自己手中,为培育新质生产力、促进高质量发展贡献力量。
2026-03-04 09:41
我们始终坚持教育、科技、人才一体发展,推行“本硕博一体贯通+产业+专家+基地”模式,通过“博士村长”计划,培养了一大批知农爱农的复合型人才。
2026-03-04 09:40
回望“十四五”,中国经济在世界百年未有之大变局中彰显强大韧性,让我对高质量发展路径有了更深刻的认知。
2026-03-04 09:39
中国科学院国家天文台,年过八旬的中国科学院院士汪景琇春节假期一直在办公室忙碌,“有篇科普文章刚开了头,得抓紧写出来。”
2026-03-04 09:38
加载更多