谷歌发布AI模型MedGemma，用于医学领域的文本和图像理解_AI&大模型



 写点什么



大小：501.23K时长：02:51

谷歌发布 MedGemma，一对开源的生成式 AI 模型，旨在支持医疗保健应用中的医学文本和图像理解。这些模型基于 Gemma 3 架构，提供两种配置：MedGemma 4B，一个能够处理图像和文本的多模态模型，以及 MedGemma 27B，一个专注于医学文本的大模型。

谷歌表示，这些模型专为助力放射学报告生成、临床总结、患者分流以及一般医学问题解答等任务而设计。MedGemma 4B 基于广泛去识别化医学图像进行预训练，涵盖胸部 X 光、皮肤科照片、组织病理学幻灯片以及眼科图像等多种类型。两种模型均以开放许可的形式提供，可用于研究和开发，并提供预训练及指令调整的版本。

谷歌强调，尽管 MedGemma 模型具备诸多先进能力，但它们并非为直接应用于临床而设计，未经进一步验证和调整，不应直接用于临床实践。这些模型的定位是为开发人员提供一个基础框架，开发人员可以在此基础上，根据具体的医疗应用场景对模型进行针对性的调整和微调。

一些早期测试者已经分享了他们对模型优势和局限性的观察。临床医生兼人工智能从业者 Vikas Gaur 使用一位确诊患有结核病的患者的胸部 X 光测试了 MedGemma 4B-it 模型。他发现，模型生成了正常的解读，却遗漏了临床明显的疾病迹象：

尽管该病例存在明确的结核病迹象，但 MedGemma 却给出了“胸部 X 光正常，心脏大小在正常范围内，肺部扩张良好且清晰”的诊断结果

Gaur 认为，通过增加高质量标注数据的训练，或许能够让模型的输出结果更贴合临床预期。

此外，生物医学工程师 Mohammad Zakaria Rajabi 表示，他十分期待将 27B 大模型的功能扩展到图像处理上：

我们急切期待看到 MedGemma 27B 支持图像分析。

技术文档显示，这些模型已在超过 22 个数据集上进行了评估，这些数据集覆盖了多种医学任务和成像模态。用于训练的公共数据集包括 MIMIC-CXR、Slake-VQA、PAD-UFES-20 等。此外，在获得许可或许可参与者的同意后，还使用了多个专有数据集和内部数据集。

这些模型可以通过提示词工程、微调以及使用 Gemini 生态系统的其他工具与智能体系统集成等技术进行调整。不过模型性能可能会因提示词结构的不同而有所差异，而且这些模型尚未针对多轮对话或多图像输入能力进行过评估。

MedGemma 为医学人工智能的研究和开发提供了一个便捷的基础框架，不过在实际应用中的表现将取决于其在特定临床或操作环境中的验证、微调以及整合程度。

【声明：本文由 InfoQ 翻译，未经许可禁止转载。】

查看英文原文：https://www.infoq.com/news/2025/05/google-medgemma/

发布

暂无评论

创作场景

谷歌发布 AI 模型 MedGemma，用于医学领域的文本和图像理解

评论

DeepSeek爆火，软件国产替代将起飞？

视频转换器Smart Converter Pro for Mac 激活版

PDF文件阅读器Acrobat Reader DC for Mac激活版

图像编辑格式转换工具GraphicConverter 12 for Mac激活版

科研界DeepSeek+AI应用协作攻略来了！

精美动态壁纸下载器Dynamic Wallpaper for Mac

超表面---电容或变容二极管调焦反射镜【CST软件案例】

金融科技生态合作+1！YashanDB与维恩贝特完成兼容互认证

满血版DeepSeek落地东南大学！昇腾先进架构和卓越性能全程护航

小红书笔记详情API接口（小红书API系列）

预设管理器和编辑器JU-106 Editor for Mac激活版

用友BIP+DeepSeek催生超级智能体：10分钟构建一个企业级智能助理

2025年流行陪玩系统源码解析：三端搭建，覆盖APP、H5、小程序

共筑金融数字化新生态！YashanDB与恒生电子完成兼容互认证

专业数字音频制作Cockos Reaper for Mac激活版

Screen Wonders for Mac(3D壁纸屏保软件)v3.3.1激活版

SRM系统源码

创作场景

谷歌发布 AI 模型 MedGemma，用于医学领域的文本和图像理解

评论

推荐阅读

电子书

大厂实战PPT下载