阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

谷歌发布 AI 模型 MedGemma,用于医学领域的文本和图像理解

作者:Robert Krzaczyński

  • 2025-06-04
    北京
  • 本文字数:1001 字

    阅读完需:约 3 分钟

大小:501.23K时长:02:51
谷歌发布AI模型MedGemma,用于医学领域的文本和图像理解

谷歌发布 MedGemma,一对开源的生成式 AI 模型,旨在支持医疗保健应用中的医学文本和图像理解。这些模型基于 Gemma 3 架构,提供两种配置:MedGemma 4B,一个能够处理图像和文本的多模态模型,以及 MedGemma 27B,一个专注于医学文本的大模型。


谷歌表示,这些模型专为助力放射学报告生成、临床总结、患者分流以及一般医学问题解答等任务而设计。MedGemma 4B 基于广泛去识别化医学图像进行预训练,涵盖胸部 X 光、皮肤科照片、组织病理学幻灯片以及眼科图像等多种类型。两种模型均以开放许可的形式提供,可用于研究和开发,并提供预训练及指令调整的版本。


谷歌强调,尽管 MedGemma 模型具备诸多先进能力,但它们并非为直接应用于临床而设计,未经进一步验证和调整,不应直接用于临床实践。这些模型的定位是为开发人员提供一个基础框架,开发人员可以在此基础上,根据具体的医疗应用场景对模型进行针对性的调整和微调。


一些早期测试者已经分享了他们对模型优势和局限性的观察。临床医生兼人工智能从业者 Vikas Gaur 使用一位确诊患有结核病的患者的胸部 X 光测试了 MedGemma 4B-it 模型。他发现 ,模型生成了正常的解读,却遗漏了临床明显的疾病迹象:


尽管该病例存在明确的结核病迹象,但 MedGemma 却给出了“胸部 X 光正常,心脏大小在正常范围内,肺部扩张良好且清晰”的诊断结果


Gaur 认为,通过增加高质量标注数据的训练,或许能够让模型的输出结果更贴合临床预期。

此外,生物医学工程师 Mohammad Zakaria Rajabi 表示,他十分期待将 27B 大模型的功能扩展到图像处理上:


我们急切期待看到 MedGemma 27B 支持图像分析。


技术文档显示,这些模型已在超过 22 个数据集上进行了评估,这些数据集覆盖了多种医学任务和成像模态。用于训练的公共数据集包括 MIMIC-CXRSlake-VQAPAD-UFES-20 等。此外,在获得许可或许可参与者的同意后,还使用了多个专有数据集和内部数据集。


这些模型可以通过提示词工程、微调以及使用 Gemini 生态系统的其他工具与智能体系统集成等技术进行调整。不过模型性能可能会因提示词结构的不同而有所差异,而且这些模型尚未针对多轮对话或多图像输入能力进行过评估。


MedGemma 为医学人工智能的研究和开发提供了一个便捷的基础框架,不过在实际应用中的表现将取决于其在特定临床或操作环境中的验证、微调以及整合程度。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/05/google-medgemma/

2025-06-04 11:003794

评论

发布
暂无评论

测试

Flink SQL CDC 上线!我们总结了 13 条生产实践经验

Apache Flink

flink

欧洲央行近期将决定是否建立官方数字货币

CECBC

数字货币 欧央行

Spring事务是如何应用到你的业务场景中的?

AI乔治

Java spring 架构 微服务 springboot

RabbitMQ 重要概念介绍

hepingfly

Java RabbitMQ 消息队列 JMS

Spring IoC 到底是什么?

小齐本齐

spring 程序员 ioc Spring Framework Spring Bean

SwiftGG 文档翻译笔记1-基础部分函数闭包

测试

云龙

C/C++基础之sizeof使用

C语言与CPP编程

c c++ 编程 编程语言

Http请求中如何保持状态?

架构师修行之路

STL总结与常见面试题

C语言与CPP编程

c c++ 编程 编程语言 stl

架构师课程大作业 知识图谱

杉松壁

解决分布式session问题

架构师修行之路

分布式 架构设计 session

大作业

Geek_2e7dd7

中国云计算的云栖“坐标”

脑极体

2020英特尔大师挑战赛携手华硕ROG激战成都

E科讯

你还在手撕微服务?快试试 go-zero 的微服务自动生成

万俊峰Kevin

微服务 microservice go-zero Go 语言

随想之乐观估计

云杉

组合模式

纯纯

LeetCode题解:1. 两数之和,Map+队列+双指针,JavaScript,详细注释

Lee Chen

大前端 LeetCode

SpringBoot RabbitMQ消息队列的重试、超时、延时、死信队列

Barry的异想世界

RabbitMQ springboot 消息队列 死信队列 延时队列

高并发系列——CAS操作及CPU底层操作解析

诸葛小猿

CAS AtomicInteger compareAndSwap cmpxchg lock

你需要开始做点什么,否则你会一直忙一直忙

老胡爱分享

学习 思维方式 行动派 随笔杂谈 拖延症

非科班进大厂必备算法

我是程序员小贱

面试 算法

前端必会的七种排序算法

执鸢者

算法 大前端

Spring 5 中文解析测试篇-WebTestClient

青年IT男

单元测试 Spring5

直播风口,是什么在支撑教育、电商、泛娱乐等场景?

腾讯云音视频

腾讯云 音视频 云直播 点播

基于 Flink 的典型 ETL 场景实现方案

Apache Flink

flink

为什么区块链能成为全球贸易的助推器

CECBC

区块链 金融 国际贸易

理财专题一

TCA

甲方日常 14

句子

Java 工作 随笔杂谈 日常

谷歌发布AI模型MedGemma,用于医学领域的文本和图像理解_AI&大模型_InfoQ精选文章