点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI机器人会考试,不会看病
首页> 科技频道> 综合新闻 > 正文

AI机器人会考试,不会看病

来源:中国科学报2025-01-07 09:57

  一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在通过与患者交谈从而诊断疾病方面仍然不及格。1月2日,相关研究成果发表于《自然-医学》。

  美国哈佛大学的Pranav Rajpurkar说:“虽然大型语言模型在测试中的表现令人印象深刻,但在动态对话中,它们的准确性明显下降,尤其是难以进行开放式诊断推理。”

  研究人员开发出一种方法,基于模拟医患对话评估“临床AI”模型的推理能力。这些“患者”基于2000个医疗案例。这些案例主要来自美国医学委员会的专业考试。

  同样来自哈佛大学的Shreya Johri说:“模拟医患互动可以评估病史采集技能,这是临床实践的一个关键组成部分。”她表示,新的评估基准被称为CRAFT-MD,“反映了现实生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在回答特定问题时才会披露重要信息”。

  CRAFT-MD基准本身依赖于AI。美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还通过将“临床AI”的诊断结果与每个病例的正确答案进行比较来评分。人类医学专家对这些评估进行了复核。他们还审查了对话,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的医疗信息。

  多项实验表明,4种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4、美国Meta公司的Llama-2-7b和法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表现远不如根据书面摘要进行诊断时的表现。

  例如,当提供结构化的病例摘要并允许从多项答案中作出选择时,GPT-4的诊断准确率高达82%,而没有多项选择时,其诊断准确率则降至49%以下。然而,当它不得不通过与模拟的患者对话进行诊断时,准确率降至26%。

  在这项研究中,通常GPT-4是表现最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。

  AI模型在大多数情况下未能收集完整的病史,比如GPT-4仅在71%的模拟患者对话中做到了这一点。即使AI模型收集了患者的相关病史,它们也并不总是能够作出正确的诊断。

  美国斯克利普斯研究转化研究所的Eric Topol表示,模拟患者对话代表了一种比医学考试“更有用”的评估AI临床推理能力的方法。

  Rajpurkar说,即使一个AI模型最终通过了这一基准,能够根据模拟的患者对话持续作出准确诊断,也并不一定意味着它就优于人类医生。他指出,现实世界中的医疗实践比模拟的“更混乱”,涉及管理多名患者、与医疗团队协调、进行身体检查,以及了解当地医疗情况中“复杂的社会和系统因素”。“AI是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”Rajpurkar说。 (文乐乐)

  相关论文信息:

  https://doi.org/10.1038/s41591-024-03328-5

  《中国科学报》 (2025-01-07 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 科学报国正当时|以“芯”报国显担当

  • 中国制造“十四五”成就展在国博开幕

独家策划

推荐阅读
光明日报北京12月29日电 记者姚亚奇29日从国家林草局获悉,“十四五”期间,我国采取有力措施,加快推进林草种苗振兴,收集保存林草种质资源14.74万份,较“十三五”末增长180%,我国重要乡土树种草种和珍稀濒危林草种质资源得到有效保护。
2025-12-30 09:23
由自然资源部南海生态中心联合相关单位共同编制的《黄岩岛珊瑚礁生态调查报告》29日在京发布。报告基于船舶走航、潜水调查、卫星航空遥感、原位观测等方式,结合历史数据分析,对黄岩岛珊瑚礁生态状况进行了调查评估。
2025-12-30 09:23
松花江畔,风机和光伏正齐齐出力,一端是新能源电力源源不断产出;另一端,化工装置稳定运行,“绿色石油”涌流而出。
2025-12-30 09:37
执行中国第42次南极考察任务的“雪龙”号极地科考破冰船于北京时间29日顺利抵达秦岭站海域,并开展卸货作业。
2025-12-30 09:32
研究人员在火星发现了适合人类探索的浅层水冰的痕迹。研究团队借助高分辨率轨道影像,对火星地貌进行了研究,并在中纬度的亚马孙平原发现了埋藏深度不足1米的冰痕迹。易获取的冰能够让宇航员在火星长期生存与工作期间,制备饮用水、可呼吸的氧气、燃料及其他必需品。
2025-12-30 09:27
截至12月28日,新疆油田2025年二氧化碳注入量突破100万吨,成为我国首个实现年注碳百万吨的油田。”新疆油田公司执行董事、党委书记石道涵介绍,油田年注碳量从2022年的12.6万吨跃升至2025年的100万吨,已累计注入二氧化碳超200万吨。
2025-12-30 09:26
12月26日,我国首个覆盖6种轮状病毒血清型的六价轮状病毒疫苗在湖北武汉完成首剂接种。
2025-12-29 10:23
美国哈佛—史密森尼天体物理中心天文学家利用美国国家航空航天局(NASA)的哈勃空间望远镜,首次观测到围绕年轻恒星运行的迄今最大原行星盘——IRAS 23077+6707。
2025-12-29 10:10
2025年12月27日0时07分,我国在西昌卫星发射中心用长征三号乙运载火箭成功发射风云四号C星(03星),卫星顺利进入预定轨道,发射任务取得圆满成功。
2025-12-29 10:07
中国科学院空天信息创新研究院研究员王振友团队联合四川省文物考古研究院等机构的科研人员,自主研制了显微时间门控拉曼光谱仪,并利用该仪器对三星堆出土的4块象牙碎片进行无损检测,揭示了象牙在长期地质作用下的老化过程。
2025-12-29 10:01
近期,工信部发布《场景化、图谱化推进重点行业数字化转型的参考指引(2025版)》,聚焦14个重点行业,绘制企业数字化转型“场景导航图。
2025-12-29 09:59
当日,石景山区AI for Science平台正式上线,该平台由枫清科技携手火山引擎联合打造,以AI驱动科研机构与企业的科研效率革新,降低科研门槛。
2025-12-27 20:21
记者25日从国防科技大学获悉,该校磁浮团队近日在磁悬浮试验中,成功在两秒内将吨级试验车加速至700公里/小时。测试速度打破了同类型平台全球纪录,成为全球最快的超导电动磁悬浮试验速度。
2025-12-26 10:08
12月24日,中国科学院重大科技基础设施“载人潜水器与海上作业母船”用户委员会2025年度会议披露:我国“深海勇士”号、“奋斗者”号、“蛟龙”号三大载人潜水器全年完成314次深潜,累计下潜总量达1746次,2026年将向2000次目标稳步迈进。
2025-12-26 10:05
日前,国家自然科学基金委员会在北京召开国家自然科学基金首批重大非共识项目遴选会议,标志着重大非共识项目正式启动试点。国家自然科学基金委员会将深入实施并持续优化重大非共识项目遴选机制,引导广大科研人员聚焦高水平原创性科研工作狠下功夫。
2025-12-26 09:59
其实,流感和普通感冒不是一回事,用药自然不能一概而论。流感一来往往会发高烧(体温39—40摄氏度),浑身肌肉酸痛、没力气,症状重;普通感冒多是鼻塞、流鼻涕、喉咙痛,发烧也多是低热,症状轻。
2025-12-26 09:58
一项近日发表于《科学》的研究指出,像ChatGPT 这样的人工智能(AI)工具正在大幅增加论文产量。此类文本数量的不断增加,使同行评议、资金决策和科研监督变得复杂,因为越来越难区分有意义的研究成果和低价值的内容。
2025-12-26 09:56
传统探查手段在如此深的地下几乎“失明”,无法精准捕捉地质特征。这项工程的成功实施,填补了我国超深埋输水隧洞注浆治理技术的空白,标志着我国在深埋地下工程地质探查与注浆治理领域达到国际领先水平。
2025-12-25 09:42
24日上午,随着最后一方混凝土浇筑完成,宁波舟山港六横公路大桥二期工程——青龙门特大桥双主塔成功封顶。青龙门特大桥位于浙江舟山,横跨青龙门水道,连接宁波梅山岛与舟山佛渡岛。
2025-12-25 09:45
24日,我国最大超深凝析气田——中国石油塔里木油田博孜—大北气田天然气年产量突破100亿立方米,生产凝析油91.89万吨。为攻克上述难题,塔里木油田持续攻关,推动气田开发实现从深层向超深层、从高压向超高压、从优质储层向复杂储层的三大跨越。
2025-12-25 09:44
加载更多