点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI机器人会考试,不会看病
首页> 科技频道> 综合新闻 > 正文

AI机器人会考试,不会看病

来源:中国科学报2025-01-07 09:57

  一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在通过与患者交谈从而诊断疾病方面仍然不及格。1月2日,相关研究成果发表于《自然-医学》。

  美国哈佛大学的Pranav Rajpurkar说:“虽然大型语言模型在测试中的表现令人印象深刻,但在动态对话中,它们的准确性明显下降,尤其是难以进行开放式诊断推理。”

  研究人员开发出一种方法,基于模拟医患对话评估“临床AI”模型的推理能力。这些“患者”基于2000个医疗案例。这些案例主要来自美国医学委员会的专业考试。

  同样来自哈佛大学的Shreya Johri说:“模拟医患互动可以评估病史采集技能,这是临床实践的一个关键组成部分。”她表示,新的评估基准被称为CRAFT-MD,“反映了现实生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在回答特定问题时才会披露重要信息”。

  CRAFT-MD基准本身依赖于AI。美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还通过将“临床AI”的诊断结果与每个病例的正确答案进行比较来评分。人类医学专家对这些评估进行了复核。他们还审查了对话,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的医疗信息。

  多项实验表明,4种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4、美国Meta公司的Llama-2-7b和法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表现远不如根据书面摘要进行诊断时的表现。

  例如,当提供结构化的病例摘要并允许从多项答案中作出选择时,GPT-4的诊断准确率高达82%,而没有多项选择时,其诊断准确率则降至49%以下。然而,当它不得不通过与模拟的患者对话进行诊断时,准确率降至26%。

  在这项研究中,通常GPT-4是表现最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。

  AI模型在大多数情况下未能收集完整的病史,比如GPT-4仅在71%的模拟患者对话中做到了这一点。即使AI模型收集了患者的相关病史,它们也并不总是能够作出正确的诊断。

  美国斯克利普斯研究转化研究所的Eric Topol表示,模拟患者对话代表了一种比医学考试“更有用”的评估AI临床推理能力的方法。

  Rajpurkar说,即使一个AI模型最终通过了这一基准,能够根据模拟的患者对话持续作出准确诊断,也并不一定意味着它就优于人类医生。他指出,现实世界中的医疗实践比模拟的“更混乱”,涉及管理多名患者、与医疗团队协调、进行身体检查,以及了解当地医疗情况中“复杂的社会和系统因素”。“AI是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”Rajpurkar说。 (文乐乐)

  相关论文信息:

  https://doi.org/10.1038/s41591-024-03328-5

  《中国科学报》 (2025-01-07 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 当日,一场以“精致与浪漫”为名的巴洛克室内乐经典音乐会在北京国家大剧院上演。音乐会由管风琴、羽管键琴演奏家、教育家沈凡秀及中央音乐学院师生组成的清馨巴洛克乐团演奏,带来包含亨德尔、维瓦尔第、巴赫等大师作品。这场音乐会是国家大剧院2025五月音乐节的演出之一。5月1日至25日,以“乐彩纷呈”为主题的国家大剧院2025五月音乐节呈现27场中外音乐史上的室内乐经典作品演出,展现室内乐的传承与创新。

  • “五一”假日期间,位于新疆鄯善县的“中国历史文化名村”吐峪沟村吸引不少游人观光旅游。

独家策划

推荐阅读
第137届广交会第三期“美好生活”5月1日开幕,12043家企业参展。
2025-05-01 17:55
BEST装置,紧凑型全超导托卡马克核聚变实验装置。
2025-05-01 17:52
杨永修有多个头衔,“全国五一劳动奖章”获得者、“中国青年五四奖章”获得者、全国技术能手、中国一汽首席技能大师……五一前夕,他被授予“全国劳动模范”荣誉称号。
2025-05-01 17:41
“当患者因我们的药多了一份生活的希望,那所有辛苦的日夜就有了意义。”贝达药业股份有限公司质量工程师高娅琴在接受采访时说道。
2025-05-01 17:40
21世纪初始,随着城镇化的发展,全国各地的建筑高度被一再打破。如何在保证超高建筑结构安全的同时提高建造效率,成为业界亟待破解的难题。
2025-05-01 17:32
美国的政策变化不仅影响本国科研,也导致许多国际科研项目中断或面临中断风险,对全球科研合作造成重大伤害。
2025-05-01 17:28
“对服装面料而言,防水和透气本是矛盾体,但我们采用高分子膜贴合技术,做到了既防水又透气。包括上述小程序在内,柯桥织造印染产业大脑已集成190多个应用,入驻企业4000多家,注册工程师11万多人,接入生产核心设备3万多台套。
2025-04-30 09:00
轻舟,顾名思义,以个头小、重量轻为最大特点。轻舟货运飞船副总设计师吴会英告诉记者,轻舟重量约5吨,目前的上行运力为1.8吨以上,下行为2吨。装载容积约9立方米,货物舱的体积为27立方米,可搭载航天员生活物资、科学实验设备、科学载荷等。
2025-04-30 05:10
4月29日4时10分,我国在文昌航天发射场使用长征五号乙运载火箭/远征二号上面级,成功将卫星互联网低轨03组卫星发射升空,卫星顺利进入预定轨道,发射任务获得圆满成功。
2025-04-30 05:10
近日,我国天都一号通导技术试验星成功完成白天强光干扰条件下的地月空间激光测距技术试验,在国际上首次打破地月空间卫星激光测距仅能在夜晚作业的时间限制,标志着我国在深空轨道精密测量领域取得技术新突破。
2025-04-30 05:10
搭载该模型的AI手机、智能屏幕、陪伴机器人“AI智伴小熊”等产品,为用户带来更加个性化、智能化的生活体验。
2025-04-30 09:04
(夏婷,中国科协创新战略研究院创新环境研究所副所长、副研究员)
2025-04-29 12:58
北京正推进“超高清入户行动”,推进有线电视超高清机顶盒全面置换,“计划于6月底完成标清机顶盒的置换目标”。
2025-04-29 09:10
脂肪组织中隐藏着一群脂肪细胞祖细胞,它们负责制造新的脂肪细胞。更令人惊讶的是,随着年龄的增长,APC还会进化成一种更为强大的“超级工匠”——年龄特异性定型前脂肪细胞(CP-A)。
2025-04-29 09:51
近日,中国农业科学院农业质量标准与检测技术研究所(以下简称“质标所”)农业环境污染物研究室成功研发出全球首套面源污染智能监测系统。
2025-04-29 09:50
一位老人站在秧田里,大喊一声“拔秧哦”,弯腰拔起第一把秧苗。众人齐声应和,大声喊:“风调雨顺,五谷丰登。”秧田里,一排人将秧苗拔起,担到打过格子的稻田里,整整齐齐插好。
2025-04-29 06:30
2024年,全国生态环境质量持续改善,环境安全形势保持稳定,公众生态环境满意度达91.24%,连续4年超过90%。
2025-04-29 09:07
把青春奋斗融入党和人民事业,青春才会绽放绚丽光彩。
2025-04-29 09:28
加载更多