评分高达92.6%!谷歌AI医疗大模型重磅论文登上《自然》:水平媲美临床医生

“AI医生,离我们越来越近了。

712日,谷歌和DeepMind的科研人员在《自然》杂志上发表了一项研究,不仅提出了MultiMedQA(美国医师执照试题)评估基准,用于评估大语言模型在编码临床知识方面的表现,还详解了谷歌医疗大模型Med-PaLM的进化过程。

最终的研究结果显示,一组临床医生对谷歌和DeepMind团队的医疗大模型Med-PaLM回答的评分高达92.6%,与现实中人类临床医生的水平(92.9%)相当。此外,Med-PaLM5.9%的答案被评为可能导致有害结果,与临床医生生成的答案(5.7%)的结果相似。

谷歌医疗大模型Med-PaLM几乎可媲美人类医生

在这篇最新的《自然》论文中,谷歌和DeepMind科学家团队介绍了全新的MultiMedQA评估基准,专门用于评估大语言模型在编码临床知识方面的表现。

该基准结合了六个现有医疗问答数据集(MedQA MedMCQA PubMedQALiveQA MedicationQAMMLU),涵盖专业医学、研究和消费者查询等多个方面,以及一个全新的在线搜索医疗问题库数据集HealthSearchQA,力图从多方面把AI培养成一名合格的医生。

此外,该团队提出了一个基于人类评估的框架模型,该模型包括多个维度,例如事实、理解、推理,以及可能的偏见。

该团队在MultiMedQA上对拥有5400亿参数的谷歌大型语言模型PaLMPathways Language Model)及其变体Flan-PaLM进行了评估。

在实验中,研究人员采用了提示策略组合,Flan-PaLM在每个MultiMedQA多选题数据集上都达到了极高的准确率,其中在MedQA(美国医学执照考试类型问题)上的准确率为67.6%,比之前的技术水平高出17%以上。

图片来源:《自然》

论文指出,虽然Flan-PaLMMedQA的多项选择题上表现出色,但它对病人医疗问题的回答却暴露出关键的差距。为了解决这个问题,谷歌科学家团队提出了指令提示调整,让Flan-PaLM进一步与医学接轨,产生了Med-PaLM

在评估中,Med-PaLM表现令人鼓舞,一组临床医生对其回答的评分为92.6%,与现实中临床医生的水平(92.9%)相当。

图片来源:《自然》

AI医疗市场五年内或破千亿美元,科技巨头纷纷布局

基础模型和大语言模型的出现为医学AI的发展提供了助力。《每日经济新闻》记者注意到,其实除了谷歌和其旗下的DeepMind外,微软、IBM等科技大厂一直在持续关注AI医疗方面的应用落地。在这轮大模型浪潮之前,AI检测心电图、X光片已在一些医院中投入应用。

IBM官网对医学领域AI的介绍

过去数年来,AI在医疗领域的发展迅猛,为医疗行业带来了革命性的变革和巨大的潜力。

根据麦肯锡咨询的数据,AI每年可以创造3.5万亿至5.8万亿美元的商业价值。预计到2025年,全球AI应用市场总值将达到1270亿美元,其中AI医疗占据1/5的份额,处于高速成长阶段。

知名市场调研公司ReportLinker此前针对全球医疗保健AI市场的年度报告曾预测,全球医疗保健AI市场规模将从2023年的146亿美元增长到2028年的1027亿美元,期间复合年增长率为47.6%

中国AI产业发展迅速,自2019年以来,AI医疗以40%60%的增速快速发展,中国的AI医疗核心软件市场规模已接近30亿元,并且还有重资产性质的AI医疗机器人,总体规模接近60亿元。

猜你喜欢

转载自blog.csdn.net/xyk2000114/article/details/131762202