点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI机器人会考试,不会看病
首页> 科技频道> 综合新闻 > 正文

AI机器人会考试,不会看病

来源:中国科学报2025-01-07 09:57

  一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在通过与患者交谈从而诊断疾病方面仍然不及格。1月2日,相关研究成果发表于《自然-医学》。

  美国哈佛大学的Pranav Rajpurkar说:“虽然大型语言模型在测试中的表现令人印象深刻,但在动态对话中,它们的准确性明显下降,尤其是难以进行开放式诊断推理。”

  研究人员开发出一种方法,基于模拟医患对话评估“临床AI”模型的推理能力。这些“患者”基于2000个医疗案例。这些案例主要来自美国医学委员会的专业考试。

  同样来自哈佛大学的Shreya Johri说:“模拟医患互动可以评估病史采集技能,这是临床实践的一个关键组成部分。”她表示,新的评估基准被称为CRAFT-MD,“反映了现实生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在回答特定问题时才会披露重要信息”。

  CRAFT-MD基准本身依赖于AI。美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还通过将“临床AI”的诊断结果与每个病例的正确答案进行比较来评分。人类医学专家对这些评估进行了复核。他们还审查了对话,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的医疗信息。

  多项实验表明,4种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4、美国Meta公司的Llama-2-7b和法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表现远不如根据书面摘要进行诊断时的表现。

  例如,当提供结构化的病例摘要并允许从多项答案中作出选择时,GPT-4的诊断准确率高达82%,而没有多项选择时,其诊断准确率则降至49%以下。然而,当它不得不通过与模拟的患者对话进行诊断时,准确率降至26%。

  在这项研究中,通常GPT-4是表现最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。

  AI模型在大多数情况下未能收集完整的病史,比如GPT-4仅在71%的模拟患者对话中做到了这一点。即使AI模型收集了患者的相关病史,它们也并不总是能够作出正确的诊断。

  美国斯克利普斯研究转化研究所的Eric Topol表示,模拟患者对话代表了一种比医学考试“更有用”的评估AI临床推理能力的方法。

  Rajpurkar说,即使一个AI模型最终通过了这一基准,能够根据模拟的患者对话持续作出准确诊断,也并不一定意味着它就优于人类医生。他指出,现实世界中的医疗实践比模拟的“更混乱”,涉及管理多名患者、与医疗团队协调、进行身体检查,以及了解当地医疗情况中“复杂的社会和系统因素”。“AI是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”Rajpurkar说。 (文乐乐)

  相关论文信息:

  https://doi.org/10.1038/s41591-024-03328-5

  《中国科学报》 (2025-01-07 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 湖南龙山:强降雨后恢复生产生活

  • 走进南博会旅居云南馆

独家策划

推荐阅读
在6月18日至20日举行的2025年世界移动通信大会(上海)(MWC上海2025)上,一系列新技术、新产品、新应用集中亮相。
2025-06-20 10:21
每年春天,在南半球夜空的指引下,数十亿只布冈夜蛾会向南迁徙1000公里,到达澳大利亚的阿尔卑斯山脉。
2025-06-20 10:21
厦门大学柔性电子(未来技术)研究院教授梁亮亮团队联合新加坡国立大学教授刘小钢团队,在镧系元素掺杂光子雪崩上转换纳米晶研究中取得进展。
2025-06-20 10:21
几十万年前,不只是我们“毛茸茸”的祖先在奔跑、狩猎、生火,还有许多其他“人类亲戚”也栖居在地球上。
2025-06-20 10:21
记者从上海海洋大学获悉,该校水产与生命学院、上海海洋大学eDNA工程中心张玮研究小组在四川稻城海子山保护区的从前措,完成了一次令人兴奋的“生命寻宝”——发现并命名了一种全新的藻类。
2025-06-20 04:40
大力弘扬“爱国、创新、求实、奉献、协同、育人”的科学家精神
2025-06-19 19:13
在生命起源的奥秘中,胚胎发育始终是深受关注的谜题之一。研究发现,在小鼠胚胎发育到7.75天时,胚内、胚外层交界处出现一个独特的信号“洼地”——器官原基决定区(PDZ)。
2025-06-19 10:00
高校学术共同体是科学家精神的培育者、践行者、传承者,以科学家精神引领学术共同体文化建设、以制度机制创新推进科学家精神转化为学术共同体的行动自觉,必将推动高校充分发挥人才和科技优势,在实现高水平科技自立自强、全面提高人才自主培养质量中做出积极贡献。
2025-06-19 09:58
今年麦收期间,各地积极应对高温炎热和多轮大范围降雨天气影响,高效调度机具,强化部门协作,加强服务保障,全力组织抢收,努力做到适收快收、应收尽收。
2025-06-19 09:56
干细胞储备耗竭及其引发的组织再生与稳态维持能力下降,是机体衰老和衰老相关疾病的关键特征。
2025-06-19 09:56
设立20多年来,创新研究群体项目有力支持了一批优秀学术带头人自主组建、带领研究团队开展创新性的基础研究。
2025-06-19 09:55
今年以来,DeepSeek“破圈”跻身全球人工智能大模型“顶流”,人形机器人加速进入多个应用场景……
2025-06-19 09:53
海洋给人的传统印象,一是资源取之不尽、用之不竭,二是靠天吃饭。渔民们世世代代出海撒网,找鱼靠经验、收成靠运气,虽然要受天气、季节、水文等的影响,却从不担心无鱼可捕。
2025-06-19 09:57
(记者魏依晨)记者6月15日从江西婺源森林鸟类国家级自然保护区获悉,该保护区与上饶师范学院生命科学学院在多样性调查中发现了昆虫新属新物种——桂刺蛾。上饶师范学院生命科学学院院长郭连金介绍,基于线粒体编码的细胞色素C氧化酶I(COI)基因的分析表明,桂刺蛾属为单系群。
2025-06-18 10:23
几年前,我开始使用聊天机器人ChatGPT时,还觉得离通用人工智能(AGI)很遥远。我发起的研究项目正是围绕上述情况展开的,并希望构建一种只有智能,没有自我、没有目标,并且具有极有限行动能力的AI。
2025-06-18 10:22
揭示了蚂蚁的演化历史和蚂蚁社会系统的演化机制,并系统解析了推动蚂蚁社会行为、社会分工、社会组织结构演化的关键基因。
2025-06-18 10:20
“一个20平方米大的水池,他在那边赶,我在这边捞,下网好几次,才捞上来两条鱼。2022年底,东星斑养殖遇到严重的病害,特别是一批鱼连续10多代近亲繁殖造成品种退化,存活率低,市场效益不好。
2025-06-18 10:19
“当那些紫花的、圆粒的、矮茎的、皱荚的豌豆在园中悄然生长,孟德尔杂交实验里的一个个豌豆性状仿佛穿越时空,跃然眼前。这种遗传背景修饰主效突变的机制,为理解复杂性状背后的表型可塑性与遗传调控层级提供了一个生动案例。
2025-06-18 10:18
此外,团队还首次捕捉到热流下声子的“非平衡态”:在界面附近约3纳米的狭窄区域,声子分布明显偏离了平衡状态。”   高鹏进一步说,当电子显微镜化身为洞察原子热浪的“超级温度计”,人类对微观世界的热操控正迎来前所未有的清晰图景。
2025-06-17 10:04
“此次发布的新产品,正在无人机物流、农林植保、紧急救援、城市空中交通等多个低空经济示范场景中进行前期测试。 欣旺达从消费电子电池领域的全球重要供应商起步,在全球动力电池装机量榜单上跻身前十,并在储能领域成为中国企业全球电芯出货量排名前十的厂商。
2025-06-17 10:03
加载更多