
谷歌发布 MedGemma,一对开源的生成式 AI 模型,旨在支持医疗保健应用中的医学文本和图像理解。这些模型基于 Gemma 3 架构,提供两种配置:MedGemma 4B,一个能够处理图像和文本的多模态模型,以及 MedGemma 27B,一个专注于医学文本的大模型。
谷歌表示,这些模型专为助力放射学报告生成、临床总结、患者分流以及一般医学问题解答等任务而设计。MedGemma 4B 基于广泛去识别化医学图像进行预训练,涵盖胸部 X 光、皮肤科照片、组织病理学幻灯片以及眼科图像等多种类型。两种模型均以开放许可的形式提供,可用于研究和开发,并提供预训练及指令调整的版本。
谷歌强调,尽管 MedGemma 模型具备诸多先进能力,但它们并非为直接应用于临床而设计,未经进一步验证和调整,不应直接用于临床实践。这些模型的定位是为开发人员提供一个基础框架,开发人员可以在此基础上,根据具体的医疗应用场景对模型进行针对性的调整和微调。
一些早期测试者已经分享了他们对模型优势和局限性的观察。临床医生兼人工智能从业者 Vikas Gaur 使用一位确诊患有结核病的患者的胸部 X 光测试了 MedGemma 4B-it 模型。他发现 ,模型生成了正常的解读,却遗漏了临床明显的疾病迹象:
尽管该病例存在明确的结核病迹象,但 MedGemma 却给出了“胸部 X 光正常,心脏大小在正常范围内,肺部扩张良好且清晰”的诊断结果
Gaur 认为,通过增加高质量标注数据的训练,或许能够让模型的输出结果更贴合临床预期。
此外,生物医学工程师 Mohammad Zakaria Rajabi 表示,他十分期待将 27B 大模型的功能扩展到图像处理上:
我们急切期待看到 MedGemma 27B 支持图像分析。
技术文档显示,这些模型已在超过 22 个数据集上进行了评估,这些数据集覆盖了多种医学任务和成像模态。用于训练的公共数据集包括 MIMIC-CXR、Slake-VQA、PAD-UFES-20 等。此外,在获得许可或许可参与者的同意后,还使用了多个专有数据集和内部数据集。
这些模型可以通过提示词工程、微调以及使用 Gemini 生态系统的其他工具与智能体系统集成等技术进行调整。不过模型性能可能会因提示词结构的不同而有所差异,而且这些模型尚未针对多轮对话或多图像输入能力进行过评估。
MedGemma 为医学人工智能的研究和开发提供了一个便捷的基础框架,不过在实际应用中的表现将取决于其在特定临床或操作环境中的验证、微调以及整合程度。
【声明:本文由 InfoQ 翻译,未经许可禁止转载。】
评论