点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI机器人会考试,不会看病
首页> 科技频道> 综合新闻 > 正文

AI机器人会考试,不会看病

来源:中国科学报2025-01-07 09:57

  一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在通过与患者交谈从而诊断疾病方面仍然不及格。1月2日,相关研究成果发表于《自然-医学》。

  美国哈佛大学的Pranav Rajpurkar说:“虽然大型语言模型在测试中的表现令人印象深刻,但在动态对话中,它们的准确性明显下降,尤其是难以进行开放式诊断推理。”

  研究人员开发出一种方法,基于模拟医患对话评估“临床AI”模型的推理能力。这些“患者”基于2000个医疗案例。这些案例主要来自美国医学委员会的专业考试。

  同样来自哈佛大学的Shreya Johri说:“模拟医患互动可以评估病史采集技能,这是临床实践的一个关键组成部分。”她表示,新的评估基准被称为CRAFT-MD,“反映了现实生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在回答特定问题时才会披露重要信息”。

  CRAFT-MD基准本身依赖于AI。美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还通过将“临床AI”的诊断结果与每个病例的正确答案进行比较来评分。人类医学专家对这些评估进行了复核。他们还审查了对话,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的医疗信息。

  多项实验表明,4种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4、美国Meta公司的Llama-2-7b和法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表现远不如根据书面摘要进行诊断时的表现。

  例如,当提供结构化的病例摘要并允许从多项答案中作出选择时,GPT-4的诊断准确率高达82%,而没有多项选择时,其诊断准确率则降至49%以下。然而,当它不得不通过与模拟的患者对话进行诊断时,准确率降至26%。

  在这项研究中,通常GPT-4是表现最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。

  AI模型在大多数情况下未能收集完整的病史,比如GPT-4仅在71%的模拟患者对话中做到了这一点。即使AI模型收集了患者的相关病史,它们也并不总是能够作出正确的诊断。

  美国斯克利普斯研究转化研究所的Eric Topol表示,模拟患者对话代表了一种比医学考试“更有用”的评估AI临床推理能力的方法。

  Rajpurkar说,即使一个AI模型最终通过了这一基准,能够根据模拟的患者对话持续作出准确诊断,也并不一定意味着它就优于人类医生。他指出,现实世界中的医疗实践比模拟的“更混乱”,涉及管理多名患者、与医疗团队协调、进行身体检查,以及了解当地医疗情况中“复杂的社会和系统因素”。“AI是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”Rajpurkar说。 (文乐乐)

  相关论文信息:

  https://doi.org/10.1038/s41591-024-03328-5

  《中国科学报》 (2025-01-07 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

独家策划

推荐阅读
ASC26报名链接:https://www.asc-events.net/StudentChallenge/ASC26/Register.php
2025-11-07 15:58
北京时间2025年11月6日11:00—14:00,地磁发生强烈扰动,达到大地磁暴水平(Kp=7),为橙色警报级别。
2025-11-07 13:39
阿特拉斯的成功观测是天问一号的一次重要拓展任务,利用探测器观测暗弱天体为天问二号开展小行星探测进行了技术试验,积累了经验
2025-11-07 09:37
天问一号环绕器利用高分辨率相机近日成功观测到星际天体——阿特拉斯。”据介绍,天问一号探测器于2021年2月进入火星环绕轨道,迄今已稳定运行4年8个月,目前状态良好。
2025-11-07 09:31
与会嘉宾围绕“人工智能+”深度融入产业创新发展等话题进行深入探讨,凝聚产业国际合作发展共识,推动构建开放包容的人工智能产业创新生态。
2025-11-07 09:29
谈及人形机器人何时能从“炫技”转向应用落地,优必选科技副总裁焦继超提出了分阶段的发展预期。中国电子学会机器人分会青年副主任委员、乐聚智能(深圳)股份有限公司董事长冷晓琨表示,预计明年人形机器人在工业领域会出现采购交付数量过万台的企业。
2025-11-07 09:28
“十四五”时期,我们将目光投向脑疾病领域,通过脑机接口技术,实现了“诊断—监测—治疗—预测”一体的大脑实时“观景”。一方面,脑机接口技术可以让神经系统“说话”,通过高精度解码神经信号实现对大脑的“意念读取”和精准诊断。
2025-11-07 09:18
遥远恒星大气爆发活动的起源区域有哪些特征,人类至今知之甚少。但科学家们正在通过分析太阳爆发活动,探究恒星大气爆发活动的奥秘。
2025-11-06 10:35
这几年,子午工程已经有不少应用场景。例如在航天员出舱时,提前进行空间天气预报,避免在太阳风暴来临、空间有高能粒子时出舱,保护航天员健康安全。
2025-11-06 10:34
智能穿戴设备产品形态从手环、手表延伸至耳机、眼镜、戒指等形式,新供给创造新需求,改变了消费者生活方式,推动着健康管理、时尚消费与技术创新的深度融合。
2025-11-06 10:32
电动车充电慢、冬天“趴窝”、安全隐患大……这些困扰电动出行的难题,迎来了突破性解决方案。
2025-11-06 10:19
目前,我国约70%的待发现油气资源蕴藏在深层超深层、复杂构造及非常规等新领域。如何找到这些宝贵的油气资源,精准绘制“藏宝图”?
2025-11-06 10:17
天问一号环绕器利用高分辨率相机于近日成功观测到星际天体——阿特拉斯(3I/ATLAS)。其间,天问一号环绕器距离目标天体约3000万千米,是目前观测该天体距离最近的探测器之一。
2025-11-06 09:56
为确保航天员生命健康安全和任务圆满成功,经研究决定,原计划11月5日实施的神舟二十号返回任务将推迟进行。
2025-11-05 10:59
4日,国务院安委会办公室、应急管理部、国家消防救援局在京举行2025年全国消防宣传月活动启动仪式。
2025-11-05 04:20
当前,人工智能作为引领新一轮科技革命和产业变革的战略性技术,深刻改变人类生产生活方式。
2025-11-05 03:50
近日,搭载神舟二十一号载人飞船的长征二号F遥二十一运载火箭在酒泉卫星发射中心点火发射,发射任务取得圆满成功。
2025-11-05 04:20
科技论文是衡量科技创新水平的重要指标。
2025-11-05 04:20
近年来,中国审定推出了一批高产稳产、绿色节水、优质专用小麦新品种。2021年,这一情况出现了转变:“圣泽901”“广明2号”“沃德188”等3个国产白羽肉鸡品种通过审定,中国白羽肉鸡育种攻关实现从0到1的实质性突破。
2025-11-04 09:06
党的二十届四中全会提出,“加快高水平科技自立自强,引领发展新质生产力”“加快经济社会发展全面绿色转型,建设美丽中国”。
2025-11-04 04:25
加载更多