点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI机器人会考试,不会看病
首页> 科技频道> 综合新闻 > 正文

AI机器人会考试,不会看病

来源:中国科学报2025-01-07 09:57

  一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在通过与患者交谈从而诊断疾病方面仍然不及格。1月2日,相关研究成果发表于《自然-医学》。

  美国哈佛大学的Pranav Rajpurkar说:“虽然大型语言模型在测试中的表现令人印象深刻,但在动态对话中,它们的准确性明显下降,尤其是难以进行开放式诊断推理。”

  研究人员开发出一种方法,基于模拟医患对话评估“临床AI”模型的推理能力。这些“患者”基于2000个医疗案例。这些案例主要来自美国医学委员会的专业考试。

  同样来自哈佛大学的Shreya Johri说:“模拟医患互动可以评估病史采集技能,这是临床实践的一个关键组成部分。”她表示,新的评估基准被称为CRAFT-MD,“反映了现实生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在回答特定问题时才会披露重要信息”。

  CRAFT-MD基准本身依赖于AI。美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还通过将“临床AI”的诊断结果与每个病例的正确答案进行比较来评分。人类医学专家对这些评估进行了复核。他们还审查了对话,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的医疗信息。

  多项实验表明,4种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4、美国Meta公司的Llama-2-7b和法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表现远不如根据书面摘要进行诊断时的表现。

  例如,当提供结构化的病例摘要并允许从多项答案中作出选择时,GPT-4的诊断准确率高达82%,而没有多项选择时,其诊断准确率则降至49%以下。然而,当它不得不通过与模拟的患者对话进行诊断时,准确率降至26%。

  在这项研究中,通常GPT-4是表现最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。

  AI模型在大多数情况下未能收集完整的病史,比如GPT-4仅在71%的模拟患者对话中做到了这一点。即使AI模型收集了患者的相关病史,它们也并不总是能够作出正确的诊断。

  美国斯克利普斯研究转化研究所的Eric Topol表示,模拟患者对话代表了一种比医学考试“更有用”的评估AI临床推理能力的方法。

  Rajpurkar说,即使一个AI模型最终通过了这一基准,能够根据模拟的患者对话持续作出准确诊断,也并不一定意味着它就优于人类医生。他指出,现实世界中的医疗实践比模拟的“更混乱”,涉及管理多名患者、与医疗团队协调、进行身体检查,以及了解当地医疗情况中“复杂的社会和系统因素”。“AI是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”Rajpurkar说。 (文乐乐)

  相关论文信息:

  https://doi.org/10.1038/s41591-024-03328-5

  《中国科学报》 (2025-01-07 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平会见文莱王储比拉

  • 习近平会见联合国教科文组织总干事阿纳尼

独家策划

推荐阅读
“请帮我检索南京附近适合亲子旅游的路线”“我想买个电热水器,请帮我推荐几款实用的”……如今,越来越多的消费者开始将AI(人工智能)当作“随身消费参谋”。从规划旅游路线到挑选酒店民宿,再到日常购物选择,很多消费者习惯先问一问AI工具,再做消费决策。
2026-05-13 09:30
在这一过程中,颠覆性技术正由潜在变量转变为关键变量,成为重塑产业结构、重构竞争格局的重要力量。颠覆性技术具有“路径替代”特征,能够深刻改变产业格局。综上所述,未来产业发展呈现出“技术跃迁—场景转化—工程化扩张”的基本路径。
2026-05-13 09:22
搭载单核180个计算比特自主超导量子芯片的“本源悟空-180”量子计算机已上线运行,开始接收全球量子计算任务。
2026-05-13 02:30
2018年,厦大教师吴彩胜带着一群厦大青年来到这里。他们发现,当地的农副产品虽然产量不小,却因缺乏检测条件,面临“好产品难认证”的困境。
2026-05-13 02:20
浦江潮涌,惠风和畅。5月12日,第十二届亚太经合组织(APEC)食品安全合作论坛(FSCF)会议在上海举行。
2026-05-13 02:25
今年5月12日是第18个全国防灾减灾日,主题是“人人讲安全、个个会应急——提高防灾减灾救灾能力”。
2026-05-12 02:40
习近平总书记在加强基础研究座谈会上强调,基础研究是整个科学体系的源头,是所有技术问题的总机关。
2026-05-12 02:40
当前,我国正处于加快建设教育强国的关键时期。教育作为强国建设、民族复兴之基,战略地位更加凸显,迎来了前所未有的发展机遇
2026-05-12 02:40
十年来,北京大学考古文博学院坚守初心、守正创新,聚焦学科、学术、话语、育人四大体系一体化建设,并以实践创新贯穿始终,让四者协同赋能
2026-05-12 02:40
回顾人类社会发展史可以发现,任何一个国家的崛起都伴随着思想文化的兴盛和知识体系的自主建构。
2026-05-12 02:40
搭载AI创作PPT、AI绘画设计等功能的智能4G无线语音鼠标,具备清洗、离心、分选、培养等功能的全自动细胞制备一体机,覆盖多层级智慧生活场景的AI智能家居……
2026-05-12 02:40
据《自然》报道,联合国正在考虑设立31项新指标,以“补充并超越”全球衡量经济增长的主要指标——国内生产总值(GDP)。古特雷斯当天在美国纽约联合国总部举行的启动仪式上发表讲话,称该报告“迈出了纠正衡量进展方面长期存在的盲点的里程碑式的一步”。
2026-05-11 08:59
在中国科学院空间科学(二期)战略性先导科技专项的统筹布局下,依托中国科学院建制化优势,院内多家单位协同攻坚,成功完成卫星研制工作。接下来,中国科学院计划通过天地联合观测,深入开展有组织、体系化的前沿研究工作,解决一批国际公认的科学难题。
2026-05-11 08:58
面对质疑,路战远和团队天天扎进地里,一边在示范田讲技术,一边用实打实的产量说话。为了把技术讲清楚,路战远团队还自掏腰包,筹集经费40多万元,设计编撰了一套《保护性耕作技术·蒙汉对照》科普画册,把复杂的技术画成生动的漫画,让17万户农牧民看着漫画、学习技术。
2026-05-11 02:45
日前从中国科学院西北高原生物研究所获悉,全球唯一聚焦高寒、高海拔、强紫外特殊生境的专业化种质资源平台——青藏高原生物种质资源库
2026-05-11 03:15
旺季收购期间,国家粮食和物资储备局强化统筹组织,细化政策措施,相机灵活开展收储调控,多措并举推动产销衔接和农企对接,积极引导各类主体入市,不断激发市场购销活力,保障收购工作顺利开展。据初步统计,累计收购中晚稻1.03亿吨、玉米2.22亿吨、大豆1299万吨。河南、湖南、黑龙江3省启动中晚稻最低收购价执行预案,累计收购最低收购价中晚稻418万吨。
2026-05-11 02:45
“人类生活在大气之中,大气变化是有规律的,可以将其变化用方程方式来表示。” 李泽椿习惯用数据和公式说话,这位中国工程院院士、天气动力和数值预报专家说话慢条斯理,从没高声过。
2026-05-09 02:15
中医强调,“未病先防、既病防变、瘥后防复”。
2026-05-09 04:05
仓廪实,天下安。习近平总书记强调,只有农业强起来,粮食安全有完全保障,我们稳大局、应变局、开新局才有充足底气和战略主动。
2026-05-09 02:15
近期,某手机芯片厂商相关漏洞被不法分子定向利用,给网上热炒的“秒解BL锁”行为敲响了警钟。
2026-05-09 11:10
加载更多