主页 > 社会 > 正文

​谷歌医疗版 ChatGPT 已在诊所实测!多个指标和真人医生相当

2023-07-13 20:23 来源:促记网 点击:

谷歌医疗版 ChatGPT 已在诊所实测!多个指标和真人医生相当

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

谷歌对外发布才 2 个月的医疗大模型Med-PaLM 2,已经 " 偷偷 " 在医疗诊所实习很久了。

《华尔街 - 日报》爆料,早在今年 4 月(也就是对外发布前),Med-PaLM 2 就开始在多家诊所内测试。

负责的工作包括回答医疗问题、总结文件或处理医疗大数据等。

基于谷歌当下最先进的大语言模型 PaLM 2 以及大量医疗数据训练,Med-PaLM 2 是第一个在 MedQA 测试集中达到 "专家" 水平的 AI 大模型。

谷歌曾经表示,在医疗领域,Med-PaLM 2 的效果优于 Bard、Bing、ChatGPT 等通用大模型。

实际上,谷歌最新被曝光的这一动作,也被视为和微软竞争的一个方面。

毕竟 ChatGPT 爆火引发了医疗系统对于 AI 提升工作效率的新一轮思考,而基于 GPT-4 能力的 AI 工具,被曝已经为 130 个诊所、600 名以上医疗工作者提供服务。

所以,谷歌在 AI 医疗的新一轮发力,进展如何?

Med-PaLM 2 能力如何?

Med-PaLM 2 基于谷歌当下最先进的大语言模型 PaLM2,PaLM 2 具备3400 亿参数、3.6 万亿 tokens

它的前身 Med-PaLM 是首个在美国医疗执照考试(USMLE)中取得 " 及格 " 以上分数的 AI 模型,在 MedQA 数据集上的得分为 67.2。

Med-PaLM 2 将这一分数提升了 19%,达到86.5

并且在 MedMACQA、PubMedQA 和 MMLU 几个临床方面的数据集上性能接近或超过 SOTA

在 1000 多个实际医疗场景问答中,Med-PaLM 2 在 9 项基准测试中,有 8 项表现良好,相较于人类医生回答更受认可

和普通医生的回答相比,Med-PaLM 2 有72.9%的回答被认为是和医生回答相对一致的。

但这些数据距离 Med-PaLM 2 能被完全投入到实际医疗场景中应用,还有一段距离。

参与 Med-PaLM 2 研发的谷歌技术高管格雷格科拉多 ( Greg Corrado ) 也表示,目前这一技术的应用仍处于早期阶段。

它还没有到达能让人放心使用的程度。

最明显的就是 Med PaLM 2 在回答问题的准确性和稳定性上,表现依旧不是很好。

比如上面的测试中 Med PaLM 2 唯一一项没有被认可的基准测试,就是 " 信息准确性 / 相关性 "。

今年世卫组织也对 LLM 回答的不稳定性表示担忧。

除此之外,AI 在医疗领域的应用上,数据问题非常关键,这涉及到患者的个人隐私。此前 DeepMind 开发的医疗软件就被发现,违法使用了 160 万份患者诊断记录。

在这方面,谷歌声明所有数据将由医疗机构负责保管,谷歌是无法拿到的。

尽管在实际应用落地中存在诸多困难,但不可否认,AI 医疗领域现在已成为科技巨头们紧盯的一块重要阵地。

科技巨头一直紧盯医疗领域

正如谷歌曝光邮件中所写的那样,Med-PaLM 2 等医疗大模型的应用,能够给医疗资源紧张地区提供很大帮助。

近年来,如微软、谷歌、IBM 等科技大厂也在持续关注 AI 医疗方面的应用落地。在这轮大模型浪潮之前,AI 检测心电图、X 光片已在一些医院中投入应用。

而 ChatGPT 一来,AI 医疗有了更多实质性进展。

比如微软和医疗软件公司 Epic 合作,开发了一种基于 ChatGPT 的工具,可以向患者自动发送信息。

还有 Carbon Health 也基于 GPT-4 推出了一种 AI 工具,可以根据医生病人之间的对话,自动生成诊断记录。

据介绍,这个工具可以在 4 分钟内完成咨询的总结,比医生自己操作快 12 分钟。

目前这个 AI 工具已经被 130+ 家诊所、超过 600 名医疗人员使用,旧金山的一家诊所表示在使用了这个工具后来就诊的病人数量增加了 30%。

以及国内也有这方面进展。

MedGPT ——基于 Transformer 的 1000 亿参数大模型,目前共接诊 120 多名患者,从问诊、检查到诊疗方案全流程覆盖。

但在大厂们热烈推进 AI 医疗应用的另一边,不少人对于这种应用还表示比较担忧,毕竟医疗行业是非常严肃的一个领域。

有人就表示,LLM 产生的 " 幻觉 " 非常多,他不相信 LLM 能帮他完成研究。

还有数据隐私方面的担忧,更是老生常谈了。

不过如果仅仅是让 AI 帮助医生完成一些重复性的基础性工作,有人觉得这还是值得提倡的。

即使 LLM 有幻觉,但是在生成笔记上还是非常成熟的。

你怎么看?

参考链接:

[ 1 ] https://www.wsj.com/articles/in-battle-with-microsoft-google-bets-on-medical-ai-program-to-crack-healthcare-industry-bb7c2db8?mod=djemalertNEWS

[ 2 ] https://www.theverge.com/2023/7/8/23788265/google-med-palm-2-mayo-clinic-chatbot-bard-chatgpt

[ 3 ] https://www.theregister.com/2023/06/06/carbon_health_deploys_gpt4powered_tools/

[ 4 ] https://cloud.google.com/blog/topics/healthcare-life-sciences/sharing-google-med-palm-2-medical-large-language-model