点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI机器人会考试,不会看病
首页> 科技频道> 综合新闻 > 正文

AI机器人会考试,不会看病

来源:中国科学报2025-01-07 09:57

  一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在通过与患者交谈从而诊断疾病方面仍然不及格。1月2日,相关研究成果发表于《自然-医学》。

  美国哈佛大学的Pranav Rajpurkar说:“虽然大型语言模型在测试中的表现令人印象深刻,但在动态对话中,它们的准确性明显下降,尤其是难以进行开放式诊断推理。”

  研究人员开发出一种方法,基于模拟医患对话评估“临床AI”模型的推理能力。这些“患者”基于2000个医疗案例。这些案例主要来自美国医学委员会的专业考试。

  同样来自哈佛大学的Shreya Johri说:“模拟医患互动可以评估病史采集技能,这是临床实践的一个关键组成部分。”她表示,新的评估基准被称为CRAFT-MD,“反映了现实生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在回答特定问题时才会披露重要信息”。

  CRAFT-MD基准本身依赖于AI。美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还通过将“临床AI”的诊断结果与每个病例的正确答案进行比较来评分。人类医学专家对这些评估进行了复核。他们还审查了对话,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的医疗信息。

  多项实验表明,4种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4、美国Meta公司的Llama-2-7b和法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表现远不如根据书面摘要进行诊断时的表现。

  例如,当提供结构化的病例摘要并允许从多项答案中作出选择时,GPT-4的诊断准确率高达82%,而没有多项选择时,其诊断准确率则降至49%以下。然而,当它不得不通过与模拟的患者对话进行诊断时,准确率降至26%。

  在这项研究中,通常GPT-4是表现最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。

  AI模型在大多数情况下未能收集完整的病史,比如GPT-4仅在71%的模拟患者对话中做到了这一点。即使AI模型收集了患者的相关病史,它们也并不总是能够作出正确的诊断。

  美国斯克利普斯研究转化研究所的Eric Topol表示,模拟患者对话代表了一种比医学考试“更有用”的评估AI临床推理能力的方法。

  Rajpurkar说,即使一个AI模型最终通过了这一基准,能够根据模拟的患者对话持续作出准确诊断,也并不一定意味着它就优于人类医生。他指出,现实世界中的医疗实践比模拟的“更混乱”,涉及管理多名患者、与医疗团队协调、进行身体检查,以及了解当地医疗情况中“复杂的社会和系统因素”。“AI是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”Rajpurkar说。 (文乐乐)

  相关论文信息:

  https://doi.org/10.1038/s41591-024-03328-5

  《中国科学报》 (2025-01-07 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平会见越共中央总书记特使黎怀忠

  • 河北唐山:发展设施农业 助力乡村振兴

独家策划

推荐阅读
2025年我国人均粮食占有量达到508.9公斤,远超国际公认的400公斤的安全线,粮食等重要农产品供给丰富、市场平稳、储备充足。
2026-02-05 10:15
一代代南来北往的科研“候鸟”安心在三亚当起了“留鸟”,南繁热土上,他们用坚守加速农业科研进程,守护着国家粮食安全的希望。
2026-02-05 10:06
工业和信息化部等八部门近日联合印发《汽车数据出境安全指引(2026版)》,推动建立高效便利安全的汽车数据跨境流动机制,提升汽车数据出境便利化水平。
2026-02-05 10:03
近日,内蒙古大学化学化工学院刘健教授、王艳琴副教授团队在节能制绿氢联产高附加值化学品领域取得重大突破,在《自然》子刊发表研究成果。
2026-02-05 10:01
近日,四川达州宣汉县深层海相钾盐资源分采分运攻关实验配套装置顺利完成试车,成功提取出高纯度氯化钾产品。
2026-02-05 10:01
我国互联网事业的蓬勃发展,既为“十四五”收官交出了亮眼答卷,也为“十五五”布局奠定了坚实基础。
2026-02-05 10:12
L5点位于地球的“后方”,位于该点的人造探测器无需消耗太多燃料就可以稳定长期驻留,因此“羲和二号”的设计寿命将长达7年。
2026-02-04 09:13
《月令七十二候集解》记载:“立,建始也”,“立”即“开始”之意。那么,立春的“立”,意味着怎样的开始?
2026-02-04 09:34
寒冬腊月,新春的氛围已在市井烟火中渐渐浓厚。进入寒假的第7天,在位于青岛的山东科技大学土木工程与建筑学院办公室里,教授李为腾和研究生杨光辉正在讨论工作。
2026-02-04 09:27
进藏工作10余年,那曲市农牧业(草业)科技研究推广中心畜牧师何世丞感慨颇深:“保护这片广袤而脆弱的草原,挑战不小,但我们一直在行动。”
2026-02-04 09:32
桥式起重机的轰响打破宁静,长十余米、重数十吨的火箭芯一级被缓缓吊离托座。操作手董磊手持控制设备,眼睛紧盯箭体,每一个动作都专注、沉稳。
2026-02-04 09:20
在人工智能(AI)和大数据时代背景下,高性能计算的战略地位已可与高能望远镜、同步辐射光源和粒子加速器等重大科研基础设施相提并论
2026-02-03 14:09
2月1日,农业农村部发布的《农产品质量安全承诺达标合格证管理办法》(以下简称《办法》)正式施行,我国农产品全面启用新版“身份证”——农产品质量安全承诺达标合格证。
2026-02-03 09:48
近日,记者从中国科学院空天信息创新研究院(以下简称空天院)获悉,该院成功开展超百G星地激光通信业务化应用实验,通信速率达到120吉比特每秒(Gbps)。”
2026-02-03 09:40
就像为一段混乱的进程找到慢放键,中国科学家在量子世界实现了一项关键控制。在量子世界中,系统在外部驱动下通常会逐步丢失初始信息,最终达到混乱的热平衡状态,该过程被称为“热化”。
2026-02-03 09:37
科技部日前发布的2024年度全国科普统计数据表明:我国科普人员队伍规模持续壮大,2024年全国科普专、兼职人员数量达221.27万,比2023年增长2.62%,其中,科普专职人员29.70万人,科普兼职人员191.57万人。
2026-02-03 09:36
2月2日是第30个“世界湿地日”。我国持续开展湿地保护修复,累计实施3800多个项目,新增和修复湿地面积100余万公顷;实施红树林保护修复和互花米草防治专项行动,累计营造红树林9200公顷,除治互花米草9.73万公顷。
2026-02-03 09:21
X光片显示的一名33岁患者的新肺(左)和旧肺。在这项研究中,Bharat表示,他的团队设计的这套人工肺系统,能够保持血液平稳且持续地流向心脏,从而降低了因血栓引发心脏病的风险。
2026-02-02 09:52
孙纯告诉《中国科学报》,时间规划的“艺术”在于,如何平衡优先和重大项目、自由观测申请项目以及可能突然出现的机遇型项目,让所有科研用户都能满意。再过十余天,孙纯的家人就会到基地与她团聚,而雷政今年终于可以回到遵义老家,与亲友相聚。
2026-02-02 09:51
通过研究月壤,我们可以进行优化模拟,从而更好服务后续探月任务。
2026-02-02 09:50
加载更多