点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI机器人会考试,不会看病
首页> 科技频道> 综合新闻 > 正文

AI机器人会考试,不会看病

来源:中国科学报2025-01-07 09:57

  一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在通过与患者交谈从而诊断疾病方面仍然不及格。1月2日,相关研究成果发表于《自然-医学》。

  美国哈佛大学的Pranav Rajpurkar说:“虽然大型语言模型在测试中的表现令人印象深刻,但在动态对话中,它们的准确性明显下降,尤其是难以进行开放式诊断推理。”

  研究人员开发出一种方法,基于模拟医患对话评估“临床AI”模型的推理能力。这些“患者”基于2000个医疗案例。这些案例主要来自美国医学委员会的专业考试。

  同样来自哈佛大学的Shreya Johri说:“模拟医患互动可以评估病史采集技能,这是临床实践的一个关键组成部分。”她表示,新的评估基准被称为CRAFT-MD,“反映了现实生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在回答特定问题时才会披露重要信息”。

  CRAFT-MD基准本身依赖于AI。美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还通过将“临床AI”的诊断结果与每个病例的正确答案进行比较来评分。人类医学专家对这些评估进行了复核。他们还审查了对话,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的医疗信息。

  多项实验表明,4种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4、美国Meta公司的Llama-2-7b和法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表现远不如根据书面摘要进行诊断时的表现。

  例如,当提供结构化的病例摘要并允许从多项答案中作出选择时,GPT-4的诊断准确率高达82%,而没有多项选择时,其诊断准确率则降至49%以下。然而,当它不得不通过与模拟的患者对话进行诊断时,准确率降至26%。

  在这项研究中,通常GPT-4是表现最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。

  AI模型在大多数情况下未能收集完整的病史,比如GPT-4仅在71%的模拟患者对话中做到了这一点。即使AI模型收集了患者的相关病史,它们也并不总是能够作出正确的诊断。

  美国斯克利普斯研究转化研究所的Eric Topol表示,模拟患者对话代表了一种比医学考试“更有用”的评估AI临床推理能力的方法。

  Rajpurkar说,即使一个AI模型最终通过了这一基准,能够根据模拟的患者对话持续作出准确诊断,也并不一定意味着它就优于人类医生。他指出,现实世界中的医疗实践比模拟的“更混乱”,涉及管理多名患者、与医疗团队协调、进行身体检查,以及了解当地医疗情况中“复杂的社会和系统因素”。“AI是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”Rajpurkar说。 (文乐乐)

  相关论文信息:

  https://doi.org/10.1038/s41591-024-03328-5

  《中国科学报》 (2025-01-07 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 古蜀文物来京“出差”

  • 各地推动高质量发展观察

独家策划

推荐阅读
随着中国第42次南极考察队队员陈龙耀从东南极西福尔丘陵地区裸露的岩壁敲下第一块岩石样本,中山站度夏地质考察工作正式启动。
2026-01-21 09:08
这套“地震断层模拟试验装置”由中国工程院院士、中国地震局工程力学研究所名誉所长谢礼立领衔的团队历时4年攻关研制完成,已成功通过验收。
2026-01-21 09:02
长期以来,半导体面临一个难题:我们知道下一代材料的性能会更好,却往往不知道如何将它制造出来。这项材料工艺革新解决了从第三代到第四代半导体都面临的共性散热难题,为后续的性能爆发奠定了关键基础。
2026-01-21 09:01
该团队通过对比研究嫦娥六号月球背面样品与嫦娥五号月球正面样品,发现嫦娥六号样品中的碳结构具有更明显的缺陷特征,这可能与月球背面经历的更强烈的微陨石撞击历史有关。
2026-01-21 09:00
近日,在国新办举行的新闻发布会上,海关总署相关负责人介绍,2025年中国高技术产品出口增长13.2%,工业机器人出口增长48.7%,并首次超过进口,我国成为工业机器人净出口国。
2026-01-21 08:56
2025年C919安全载客超过400万人次,而且今年又新开了广州往返南京的航线。
2026-01-20 07:00
工业和信息化部、国家发展改革委等五部门日前联合印发《关于开展零碳工厂建设工作的指导意见》。
2026-01-20 03:25
工业和信息化部日前印发最新修订的《优质中小企业梯度培育管理办法》,将科技型中小企业纳入优质中小企业梯度培育范围。办法自2026年4月1日起实施。
2026-01-20 03:20
近日,工业和信息化部印发最新修订的《优质中小企业梯度培育管理办法》,扩大了培育基础,首次将科技型中小企业纳入梯度培育范围。
2026-01-20 09:03
中国科学技术大学马骋教授针对全固态锂电池在循环时因需要维持良好界面接触而过于依赖外部压力、难以实际应用的问题,提出了一种低成本、较为适合商业化的解决方案。
2026-01-20 09:02
离子注入机是半导体制造关键设备,尤其是高能氢离子注入机研发难度大、技术壁垒高,我国长期依赖进口。
2026-01-20 09:02
对于行业的未来,赵同阳充满期待:“人形机器人行业未来也会出现几家顶级企业,我希望提起机器人,人们首先想到的是中国。
2026-01-20 08:57
当日9时34分,神舟二十号飞船返回舱在东风着陆场成功着陆。经现场检查确认,飞船返回舱外观总体正常,舱内下行物品状态良好,神舟二十号飞船返回任务取得圆满成功。
2026-01-19 11:36
血脑屏障横亘于血液与大脑之间,严格调控物质通行,将绝大多数药物拒之门外,这成为脑神经疾病新药研发面临的主要瓶颈之一。许多在实验室中表现优异的候选药物因无法有效透过血脑屏障,在临床试验阶段止步不前。
2026-01-19 03:10
随着国民健康意识的普遍觉醒与消费结构的深刻升级,以全谷物、豆类、薯类等为代表的杂粮,正悄然经历一场角色与意义的深刻变革。
2026-01-19 03:10
新年伊始,江苏无锡凯龙高科技股份有限公司的实验室内,一只机器人灵巧手在一个两米多高的透明检测设备中流畅地完成抓取、捏合、旋转等一连串精细动作,相关数据实时传出。这款具身智能机器人灵巧手全操作力智能检测平台于去年年底一经启动,便获得多张订单。
2026-01-19 03:10
日前,江苏徐圩核能供热发电厂1号机组核岛开始混凝土浇筑,标志着全球首个核能与石化产业大规模耦合项目进入主体工程建设阶段。这是今年我国开工建设的首台核电机组。
2026-01-19 03:10
为破解这一谜题,利用“中国天眼”的超高灵敏度优势,研究团队对重复快速射电暴FRB 20220529开展了2年多的持续监测。
2026-01-19 09:10
目前,依托DrugCLIP,团队完成了覆盖约1万个蛋白靶点、2万个蛋白口袋的虚拟筛选项目,分析筛选超过5亿个类药小分子,富集出超过200万个潜在活性分子,构建了目前已知最大规模的蛋白—配体筛选数据库。
2026-01-19 09:08
从中国地质调查局获悉,由该局广州海洋地质调查局自主研发的国内首台海底地层空间立体钻探与原位监测机器人,日前在南海1264米水深海域成功完成试验作业,各项性能全面达标,标志着我国深海勘探与地层原位监测技术取得重要突破。
2026-01-16 03:45
加载更多