2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

夸克公开国内首个覆盖全阶段医师考试的健康大模型测试集

  • 2025-09-16
    北京
  • 本文字数:567 字

    阅读完需:约 2 分钟

大小:293.25K时长:01:40
夸克公开国内首个覆盖全阶段医师考试的健康大模型测试集

9 月 16 日消息,夸克将其训练健康大模型的医师考试测试集悉数公开,这是国内首个覆盖全阶段医师考试的大模型测试集。

 

据了解,前不久夸克健康大模型成功通过中国 12 门核心学科的主任医师笔试评测,并发布技术报告《QuarkMed Technical Report》,公开了“主任医师级”能力技术实现细节。通过公开模型研发技术与医师考试测试集,夸克旨在推动 AI 与医疗相融合的进一步发展。



此前国内一直缺少一款时效性高、覆盖面全的医师考试测试集。夸克本次公开的医师考试测试集覆盖执业医师、主治医师、副主任医师、主任医师全阶段考试,精选普通内科学、普通外科学、妇产科学、儿科学等 12 门核心学科,共计约 7600 道题,真题部分均取自 2024 年最新考试。

 

该测试集将不同测试等级有效梯度化。初级考试以单选题、记忆类题目为主,随着考试级别升高,多选题、案例分析题比例随之升高,对模型的推理能力也要求越高。梯度化的测试集能为模型测试提供更明确的标准,并能有效发现模型短板、推动模型优化升级。

 

壹生检康 CEO 王强宇表示,该测试集让创业团队少走很多弯路,豆蔻妇科大模型训练过程中遇到的关键难题是如何评判模型性能,“MedBench 这些通用医疗基准在妇科场景下适配性很差,无法准确衡量模型真实水平。有了夸克这套专业测试集,我们不用在基础素材上耗费精力,能把更多资源投入到模型算法优化、妇科场景深度适配这些核心工作上。”

2025-09-16 15:233561

评论

发布
暂无评论

数据库:定义、历史及分类

Frank

监控分析工具比较 (Zipkin, Skywalking, Pinpoint, CAT)

周晓宁

深度学习算法:从模仿到创造

小魏写代码

Spring扩展-自定义标签

关系数据库:定义、模型、排名

Frank

关系型数据库

MySQL分区表详解

Java随想录

Java MySQL

基于火山引擎云搜索服务的排序学习实战

字节跳动云原生计算

大数据 搜索引擎 云原生

Spark入门指南:从基础概念到实践应用全解析

Java随想录

Java 大数据 spark

图文结合丨Prometheus+Grafana+GreatSQL性能监控系统搭建指南(上)

GreatSQL

greatsql

Groovy初学者指南

Java随想录

Java Groovy

飞桨大模型套件:一站式体验,性能极致,生态兼容

飞桨PaddlePaddle

nlp 大模型 套件 大语言模型

HBase入门指南

Java随想录

Java 大数据 habse

可以拯救陈年老视频的Topaz Video AI

展初云

Mac软件 视频修复工具

央国企数字化转型的破局者:低代码引领变革,高效应对未来挑战

优秀

低代码 数字化转型 央国企数字化转型

Redis中的Big Key问题:排查与解决思路

Java随想录

Java redis

ICCV 2023 | 当尺度感知调制遇上Transformer,会碰撞出怎样的火花?

阿里云大数据AI技术

人工智能

Mac平台的视频编辑和调色软件 DaVinci Resolve Studio 18

展初云

Mac软件 视频编辑 达芬奇18

开放原子开源大赛 | OpenAnolis赛题正式启动,诚邀报名!

开放原子开源基金会

官宣|2023开放原子开发者大会来了!

开放原子开源基金会

如何利用动态配置中心在JavaAgent中实现微服务的多样化治理

华为云开源

云原生 微服务治理

OpenTiny 系列产品 TinyEngine 低代码引擎在 HC 大会正式宣布开源~(源码已开放)

OpenTiny社区

开源 前端 低代码

【稳定性】稳定性建设之弹性设计 | 京东物流技术团队

京东科技开发者

系统稳定性 限流算法 企业号10月PK榜 弹性设计

软件测试/测试开发丨利用ChatGPT 生成自动化测试脚本

测试人

人工智能 程序员 软件测试 测试开发 ChatGPT

夸克公开国内首个覆盖全阶段医师考试的健康大模型测试集_AI&大模型_夸克_InfoQ精选文章