点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI机器人会考试,不会看病
首页> 科技频道> 综合新闻 > 正文

AI机器人会考试,不会看病

来源:中国科学报2025-01-07 09:57

  一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在通过与患者交谈从而诊断疾病方面仍然不及格。1月2日,相关研究成果发表于《自然-医学》。

  美国哈佛大学的Pranav Rajpurkar说:“虽然大型语言模型在测试中的表现令人印象深刻,但在动态对话中,它们的准确性明显下降,尤其是难以进行开放式诊断推理。”

  研究人员开发出一种方法,基于模拟医患对话评估“临床AI”模型的推理能力。这些“患者”基于2000个医疗案例。这些案例主要来自美国医学委员会的专业考试。

  同样来自哈佛大学的Shreya Johri说:“模拟医患互动可以评估病史采集技能,这是临床实践的一个关键组成部分。”她表示,新的评估基准被称为CRAFT-MD,“反映了现实生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在回答特定问题时才会披露重要信息”。

  CRAFT-MD基准本身依赖于AI。美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还通过将“临床AI”的诊断结果与每个病例的正确答案进行比较来评分。人类医学专家对这些评估进行了复核。他们还审查了对话,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的医疗信息。

  多项实验表明,4种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4、美国Meta公司的Llama-2-7b和法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表现远不如根据书面摘要进行诊断时的表现。

  例如,当提供结构化的病例摘要并允许从多项答案中作出选择时,GPT-4的诊断准确率高达82%,而没有多项选择时,其诊断准确率则降至49%以下。然而,当它不得不通过与模拟的患者对话进行诊断时,准确率降至26%。

  在这项研究中,通常GPT-4是表现最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。

  AI模型在大多数情况下未能收集完整的病史,比如GPT-4仅在71%的模拟患者对话中做到了这一点。即使AI模型收集了患者的相关病史,它们也并不总是能够作出正确的诊断。

  美国斯克利普斯研究转化研究所的Eric Topol表示,模拟患者对话代表了一种比医学考试“更有用”的评估AI临床推理能力的方法。

  Rajpurkar说,即使一个AI模型最终通过了这一基准,能够根据模拟的患者对话持续作出准确诊断,也并不一定意味着它就优于人类医生。他指出,现实世界中的医疗实践比模拟的“更混乱”,涉及管理多名患者、与医疗团队协调、进行身体检查,以及了解当地医疗情况中“复杂的社会和系统因素”。“AI是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”Rajpurkar说。 (文乐乐)

  相关论文信息:

  https://doi.org/10.1038/s41591-024-03328-5

  《中国科学报》 (2025-01-07 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平出席中法企业家委员会第七次会议闭幕式并致辞

  • 大江南北传法治音——国家宪法日普法教育全景图

独家策划

推荐阅读
为何CCER可以抵消碳排放?这里不得不提到中国的碳市场。在这样一个市场里,碳减排量可以像日常商品一样被交易。
2025-12-04 10:13
近日,中国科学院院士、中国科学院分子植物科学卓越创新中心(以下简称分子植物卓越中心)研究员林鸿宣团队与上海交通大学研究员林尤舜团队、广州国家实验室研究员李亦学团队合作,种出了“不怕热”的水稻。
2025-12-04 10:03
科学家发现了一种可以在63摄氏度下存活的单细胞变形虫,创造了真核生物的耐热纪录。拉森火山国家公园以冒泡的酸性湖泊和炽热的地热池而闻名,但该变形虫却来自一条pH中性的“热溪流”。
2025-12-04 10:04
根据我国风电光伏基地规划布局方案,至2030年,这些新能源基地总装机规模将达4.55亿千瓦,大约相当于20个三峡水电站的总装机容量——“沙戈荒”生态环境脆弱,一旦遭到破坏,恢复难度大,大规模建设光伏风电发电基地可能会影响当地的植被、土壤和水资源等。
2025-12-04 10:01
光明日报北京12月3日电 记者张胜日前从生态环境部获悉,该部与国家能源局近日联合发布3项针对海陆油气田的温室气体自愿减排项目方法学。这是全国温室气体自愿减排交易市场首次将支持范围扩充到油气开采领域,通过市场机制破解油气甲烷回收利用难题。
2025-12-04 09:58
布局“未来产业”,“十五五”规划建议为什么“点名”量子科技、生物制造等6项产业?如何挖掘中国未来产业的应用价值?
2025-12-03 09:52
记者从工业和信息化部获悉:截至10月末,我国5G基站总数达475.8万个,比上年末净增50.7万个,占移动基站总数的37%。
2025-12-03 09:44
利用美国宇航局“毅力”号火星车捕捉到的声音和电信号,法国科学家提出了火星存在闪电的证据。
2025-12-03 09:41
11月30日,内蒙古自治区乌海市,我国装机规模最大的半固态锂电池电网侧独立新型储能项目成功并网。
2025-12-03 09:34
近日,由中国科学院院士、中国科学院青藏高原研究所研究员丁林领衔的大陆碰撞与高原隆升团队,系统梳理了青藏高原隆升的历史细节。
2025-12-03 09:28
建设教育强国,基点在基础教育。 特别值得一提的是,我校教师创新性地构建了以跨学科项目学习为核心、贯通小初高认知发展,融合科学家精神、工程师思维与设计师视角的科学教育“PRIDE项目式课堂”模式。 此外,科学教育联合培养共同体,也是学校科技教育的有力支撑。
2025-12-02 10:09
今年12月2日是第十四个全国交通安全日,相关部门将围绕“文明交通 礼行天下”主题开展一系列活动。”  公安交管部门提醒:重载车辆、新手驾驶人等慢速群体尽量使用右侧车道通行,减少因较大速度差导致交通拥堵或事故。
2025-12-02 10:08
作为国内单机容量最大、效率最高燃气机组,与传统燃煤机组相比,应急调峰能力大幅提升,能源利用更高效。其碳排放强度仅为百万千瓦燃煤机组的40%,且几乎不产生颗粒物和二氧化硫,从源头减少污染。
2025-12-02 10:08
近日,法国空中客车公司与欧盟航空安全局相继发布声明,要求全球约6000架空客A320系列飞机紧急停飞维修。“此次事件的核心原因是受到单粒子翻转的影响,同时也暴露出航空电子设备对高空飞行环境中太阳辐射影响应对不足。
2025-12-02 10:07
转录组测序显示,受体植物中茉莉酸信号通路被激活;高效液相色谱-质谱检测证实,受体植物根系中茉莉酸及活性衍生物JA-Ile含量增加。”  该团队发现,茉莉酸甲酯处理能模拟菌根网络介导的互作效应,激活植物茉莉酸通路,改变根际微生物组,富集有益菌。
2025-12-02 10:06
中国科学技术大学教授潘建伟、朱晓波、彭承志、龚明等与山西大学教授梅锋等合作,基于可编程超导量子处理器“祖冲之二号”,首次在量子体系中实现并探测了高阶非平衡拓扑相。
2025-12-01 09:33
在距离海平面千米的深海,阳光无法抵达,海水冰冷,压力极大。然而,在环境极端的“海底沙漠”中,却生长着形态各异、结构复杂的深海珊瑚,构建起生机勃勃的海底“秘密花园”。
2025-12-01 09:32
推动科技创新和产业创新深度融合,是加快发展新质生产力、建设现代化产业体系的内在要求,也是塑造高质量发展新动能新优势的战略抉择。
2025-12-01 09:23
红小豆又名赤豆、小豆,是中国老百姓餐桌上一种颇受欢迎的杂粮,但科学家对其基因组的了解还不够深入。
2025-12-01 09:23
在“梦想”号问世之前,中国科学家想要开展深海大洋钻探研究,只能“借船出海”。
2025-12-01 09:22
加载更多