10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

夸克公开国内首个覆盖全阶段医师考试的健康大模型测试集

  • 2025-09-16
    北京
  • 本文字数:567 字

    阅读完需:约 2 分钟

大小:293.25K时长:01:40
夸克公开国内首个覆盖全阶段医师考试的健康大模型测试集

9 月 16 日消息,夸克将其训练健康大模型的医师考试测试集悉数公开,这是国内首个覆盖全阶段医师考试的大模型测试集。

 

据了解,前不久夸克健康大模型成功通过中国 12 门核心学科的主任医师笔试评测,并发布技术报告《QuarkMed Technical Report》,公开了“主任医师级”能力技术实现细节。通过公开模型研发技术与医师考试测试集,夸克旨在推动 AI 与医疗相融合的进一步发展。



此前国内一直缺少一款时效性高、覆盖面全的医师考试测试集。夸克本次公开的医师考试测试集覆盖执业医师、主治医师、副主任医师、主任医师全阶段考试,精选普通内科学、普通外科学、妇产科学、儿科学等 12 门核心学科,共计约 7600 道题,真题部分均取自 2024 年最新考试。

 

该测试集将不同测试等级有效梯度化。初级考试以单选题、记忆类题目为主,随着考试级别升高,多选题、案例分析题比例随之升高,对模型的推理能力也要求越高。梯度化的测试集能为模型测试提供更明确的标准,并能有效发现模型短板、推动模型优化升级。

 

壹生检康 CEO 王强宇表示,该测试集让创业团队少走很多弯路,豆蔻妇科大模型训练过程中遇到的关键难题是如何评判模型性能,“MedBench 这些通用医疗基准在妇科场景下适配性很差,无法准确衡量模型真实水平。有了夸克这套专业测试集,我们不用在基础素材上耗费精力,能把更多资源投入到模型算法优化、妇科场景深度适配这些核心工作上。”

2025-09-16 15:233

评论

发布
暂无评论

AICon演讲实录 | 谢皓:AI Agent 在边缘云的探索与实践

火山引擎边缘云

边缘计算 智能硬件 AI 大底座 Agents 边缘智能

NineData云原生智能数据管理平台新功能发布|2024年12月版

NineData

oracle DevOps Package 存储过程 NineData

微服务架构中的服务注册与发现有哪些?Zookeeper、Eureka、Nacos、Consul 都有什么区别,实现原理是什么?

码哥字节

微服务 注册中心

官宣!通义灵码 AI 程序员全面上线

阿里巴巴云原生

阿里云 云原生 通义灵码

Linux ssh 登录及免密登录

玄兴梦影

Linux 免密登录

实力!云起无垠入选中国信通院《数字安全护航技术能力全景图》

云起无垠

怎么制作情绪板?10个情绪板案例盘点!

职场工具箱

设计 设计师 在线白板 办公软件 可视化展示

《CPython Internals》阅读笔记:p61-p75

codists

CPython Internals

讯飞星火办公智能体,杜绝职场人的“年会不消停”

脑极体

AI

还不会 Cert Manager 自动签发证书?一文掌握

北京好雨科技有限公司

Kubernetes rainbond 云原生‘’ 企业号 2025年1月PK榜

📢 2025 First LOOK! CnosDB 新版本 2.4.3.1 发布 📢

CnosDB

AI rust 物联网 时序数据库 CnosDB

微软开源超强小模型 Phi-4,超 GPT-4o、可商用;HeyGen 集成 Sora 推全新数字人技术

声网

成为敏捷引领者,Scrum中文网PSM课程助你成就ScrumMaster之路

爱吃鱼的小雨

Scrum 敏捷开发 ScrumMaster认证 敏捷培训 PSM

预测市场平台 Aegis:Al Agent + Web3,为预测市场提供新的动力

股市老人

AI 代理碎片化格局下,哪些具体赛道及项目值得关注

TechubNews

去中心化金融 #人工智能

Data For AI:2025年数据集成技术趋势预测

白鲸开源

数据同步 数据集成 数据管道

IPv6升级改造三种技术方案优劣分析及选择

国科云

Java验证邮箱是否有用的实现与解析

不在线第一只蜗牛

Java 前端

官宣!通义灵码 AI 程序员全面上线

阿里云云效

阿里云 云原生 通义灵码

2024数据库编程大赛冠军挑战赛,5位选手用DuckDB和Doris挑战成功

NineData

sql Doris NineData 云数据库技术 数据库编程大赛

Mythical Games: 通过 Polkadot 革新游戏与数字资产所有权

One Block Community

文献解读-Effectiveness of mRNA BNT162b2 COVID-19 vaccine up to 6 months in a large integrated health system in the USA: a retrospect

INSVAST

基因检测 临床试验 生信分析 Sentieon 变异检测

TypeScript与JavaScript的区别

秃头小帅oi

2025,谁会成为 AI Agent 的新入口?|播客《编码人声》

声网

夸克公开国内首个覆盖全阶段医师考试的健康大模型测试集_AI&大模型_夸克_InfoQ精选文章