写点什么

谷歌 Metrax 为 JAX 引入了预定义的模型评估指标

  • 2025-12-24
    北京
  • 本文字数:1011 字

    阅读完需:约 3 分钟

大小:440.48K时长:02:30
谷歌Metrax为JAX引入了预定义的模型评估指标

Metrax是一个JAX库,最近由谷歌开源,为分类、回归、自然语言处理(NLP)、视觉和音频模型提供了标准化的性能指标实现。

 

谷歌解释说,Metrax解决了 JAX 生态系统中的一个空白,这个空白迫使许多团队从 TensorFlow 迁移到 JAX,以实现他们自己的通用评估指标版本,如准确性、F1 分数、RMS 误差等:

 

虽然在某些人看来,创建指标似乎是一个相当简单和直接的话题,但当考虑到跨数据中心规模的分布式计算环境中的大规模训练和评估时,它就变得不那么简单了。

 

Metrax 为一系列机器学习模型提供了预定义的评估度量指标,包括分类、回归、推荐、视觉和音频,特别支持分布式和大规模的训练环境。对于视觉模型,该库包括诸如交并比(IoU)、信噪比(SNR)和结构相似性指数(SSIM)等指标,Metrax 还包括鲁棒的 NLP 相关度量指标,包括困惑度(Perplexity)、BLEU 和 ROUGE。

 

谷歌指出,Metrax 的目标之一是确保所有度量指标都得到很好的实施并遵循最佳实践。在度量指标定义支持的地方,Metrax 使用 JAX 的高级功能,如 vmap 和 jit 来提高性能。例如,这些特性用于实现新的“at K”指标,以支持并行计算多个 K 值。这使我们能够更全面、更快地评估模型。

 

你可以使用 PrecisionAtK 来确定多个 K 值(比如 K=1、K=8 和 K=20)下模型的精度,所有这些都是在模型的一次前向传递中进行的,而不需要对每个参数多次调用 PrecisionAtK。

 

名为Neural Foundry的DevOps工程师在Substack上写道

 

Metrax 支持在单次传递中计算多个 K 值,这对排名系统来说是一个巨大的胜利。我每次切换项目时都需要重写度量工具,这种标准化早就应该实现了。API 看起来也很干净。好奇他们是否针对特定用例(如大规模推荐管道)的自定义实现进行了基准测试。

 

下面的代码片段展示了如何根据预测结果和标签计算精度度量指标。可以指定一个可选的阈值,将概率预测转换为二元预测:

 

import metrax  # 直接计算度量状态。metric_state = metrax.Precision.from_model_output(    predictions=predictions,    labels=labels,    threshold=0.5)# 然后通过调用compute()即可获得结果。result = metric_state.compute()result
复制代码

 

谷歌还发布了一个笔记本,包含了一系列综合示例,包括多设备扩展和与Flax NNX的集成,Flax NNX 是一个简化的 API,使得在 JAX 中创建、检查、调试和分析神经网络变得更加容易。

 

JAX是一个开源的 Python 库,用于高性能数值计算和机器学习。

 

原文链接:

https://www.infoq.com/news/2025/12/metrax-jax-evaluation-metrics/

2025-12-24 14:001

评论

发布
暂无评论
发现更多内容

新活动抽奖小程序系统:开启高效互动新体验

微擎应用市场

YashanDB数据库中SQL优化的核心技巧解析

数据库砖家

YashanDB数据库智能运维平台的构建与应用实践

数据库砖家

Qwen3-Omni发布:端到端全模态Thinker-Talker架构;Meta真实世界智能体基准Kimi K2开源最佳|日报

RTE开发者社区

YashanDB 是一个多功能的数据库管理系统

数据库砖家

YashanDB数据库支持实时流数据处理的核心优势

数据库砖家

YashanDB数据库智能索引技术及查询性能提升

数据库砖家

唯品会商品列表API全解析:从搜索条件到分页查询的实战指南

tbapi

唯品会商品数据采集 唯品会API 唯品会商品列表接口 唯品会商品数据分析

YashanDB数据库支持多语言环境的国际化策略分析

数据库砖家

YashanDB数据库支持混合云环境的部署优势与策略

数据库砖家

YashanDB数据库智能分片技术研究与实践总结

数据库砖家

YashanDB数据库智能分析功能的实现原理与应用价值

数据库砖家

快微同城小程序管理系统:打造专属同城综合信息服务平台

微擎应用市场

YashanDB数据库支持多语言查询的技术揭秘

数据库砖家

腾讯专有云TCE全新升级,公私同源+软硬开放+高可用性助力企业智算提速

极客天地

暴力拓客游戏小程序:助力商家高效引流与裂变的智能解决方案

微擎应用市场

KWDB MVP 计划正式启动!速来加入!

KaiwuDB

数据库

YashanDB数据库智能查询优化系统

数据库砖家

YashanDB数据库支持多云环境的部署优势分析

数据库砖家

AI 赋能热更新技术:从效率工具到智能生态的进阶

xuyinyin

华为新品发布会迎来首款鸿蒙智慧屏!全新应用市场为您发现精品应用

最新动态

扫码签到赢大奖小程序:助力多场景获客的智能工具

微擎应用市场

设施管理是干什么的?-ManageEngine卓豪

ServiceDesk_Plus

ManageEngine卓豪

YashanDB数据库支持多模数据管理的创新实践

数据库砖家

HashData Lightning 2.0:构建下一代智能企业数据基础设施

酷克数据HashData

云栖2025 | 阿里云自研大数据平台ODPS 重磅升级:全面支持AI计算和服务

阿里云大数据AI技术

大数据 阿里云 AI ODPS

随笔丨唯有超越范式

阿星AI工作室

学习 AI 思考 工具 思维

双碳不是 “选择题”:EMS 让中小制造企业也能 “零成本启动减碳”

开源能源管理系统

开源 能源管理系统

星云架构全景图解:从服务引擎到渲染层的组件流转路径

星云低代码中间件

低代码 中间件 开发工具 数字化 业务系统

多语言环境中使用 YashanDB

数据库砖家

谷歌Metrax为JAX引入了预定义的模型评估指标_Google_Sergio De Simone_InfoQ精选文章