Agentic AI、具身智能、强化学习框架、端侧大模型……来QCon上海站,感受AI的未来! 了解详情
写点什么

AI 模型评分有标准了!Google Stax 当“裁判”,作弊也难逃“量化法眼”

  • 2025-10-02
    北京
  • 本文字数:881 字

    阅读完需:约 3 分钟

大小:430.25K时长:02:26
AI 模型评分有标准了!Google Stax 当“裁判”,作弊也难逃“量化法眼”

Google 推出的 Stax 框架,旨在用客观、数据驱动且可重复的方法,取代 AI 模型传统的主观评估。Google 表示,这一工具让开发者能够根据自身应用场景定制评测流程,而不必依赖通用的基准测试。


据 Google 介绍,评测对于选择合适的模型至关重要,它可以通过比较质量、延迟和成本来判断模型是否适合特定解决方案。同时,评测也是评估提示工程和微调效果的关键手段。此外,在智能体(agent)编排中,可重复的基准测试也非常有价值,它能确保各智能体及组件之间可靠协作。


Stax 提供数据和工具,帮助开发者构建结合人工判断与自动评估器的基准测试。开发者可以导入生产环境可用的数据集,也可以创建自己的数据集,既可上传现有数据,也可利用大语言模型生成合成数据集。同样,Stax 还内置了一系列默认评估器,可用于常见指标,如输出冗长程度和摘要能力,同时也允许开发者创建自定义评估器,以满足更具体或精细的评测需求。


创建自定义评估器只需几个步骤。首先选择一个基础 LLM 作为裁判,,然后提供评估提示(prompt),指导裁判如何评分。提示中需要包含评分类别及其对应的 0.0 至 1.0 分值,同时指明期望的输出格式,并可使用 {{output}}、{{input}}、{{history}}、{{expected_output}} 和 {{metadata.key}} 等变量。为了确保评估器可靠,应通过经典的监督学习方法,将其与可信的人类评分进行校准。之后,还可以通过迭代微调提示,提高评估器评分与人类评分的一致性。


Stax 并非唯一可用的 AI 模型评测工具。其竞品包括 OpenAI EvalsDeepEvalMLFlow LLM Evaluate 等,不同工具在方法和功能上各有差异。


目前,Stax 已经支持为越来越多的模型供应商进行基准测试,包括 OpenAI、Anthropic、Mistral、Grok、DeepSeek 以及 Google 自家的模型,同时也可用于自定义模型端点。Stax 在测试阶段免费使用,但 Google 表示,未来可能会引入收费模式。


关于数据隐私,Google 强调不会收集用户数据,包括提示、定制数据集或评估器,也不会将其用于训练自家语言模型。不过,用户在使用其他供应商服务时,需要遵守对应的隐私政策。


原文链接:

https://www.infoq.com/news/2025/09/google-stax-ai-evaluation/

2025-10-02 08:001

评论

发布
暂无评论
发现更多内容

关于DataLeap中的Notebook,你想知道的都在这

字节跳动数据平台

数据库 大数据 数据治理 数据研发 企业号 2 月 PK 榜

IoT Studio场景最佳实践——实践类

阿里云AIoT

阿里云 物联网 IoT

分布式云原生平台Kurator v0.2.0正式发布!一键构建分布式云原生平台

华为云开发者联盟

云计算 华为云 企业号 2 月 PK 榜 华为云开发者联盟

接口调试时如何实现接口之间的数据传递?

不想敲代码

全网招募P图高手!阿里巴巴持续训练鉴假AI

阿里技术

人工智能

深度访谈 Eolink 高管|研发团队如何更好地进行 API 管理?

万事ONES

项目管理 软件研发 API管理

如何在Excel中查找并高亮数据

Geek_249eec

C# .net Excel VB.NET

如何从0开始搭建 Vue 组件库

京东科技开发者

npm UI vant Vue3 组件库

创建MQTT连接时如何设置参数?

EMQ映云科技

物联网 IoT mqtt 企业号 2 月 PK 榜 连接参数

安全可信| 首批!天翼云智算平台率先通过可信算力服务评估

天翼云开发者社区

eKuiper 1.8.0发布:零代码实现图像/视频流的实时AI推理

EMQ映云科技

物联网 IoT 视频流 流式计算 企业号 2 月 PK 榜

PostgreSQL:内存结构

天翼云开发者社区

聚焦现代化应用安全,F5的安全扩增,稳了!

F5 Inc

架构 安全 API 应用

了解医疗上云门道,尽在“共铸国云 红云行业思想汇”!

天翼云开发者社区

git使用ssh

刘旭东

git SSH

火山引擎数智平台的这款产品,正在帮助APP提升用户活跃度

字节跳动数据平台

大数据 客户数据平台 客户 客户数据 企业号 2 月 PK 榜

接口测试的测试要点

Liam

测试 接口测试 接口测试软件

OpenYurt v1.2 亮点速览丨云边流量峰值相比原生 K8s 降低 90%

阿里巴巴云原生

阿里云 开源 容器 云原生 openyurt

打造自主可控云网算力,天翼云为湖南数字经济发展注入新动能

天翼云开发者社区

业务“兔”飞猛进,只因他们做对了这件事

华为云开发者联盟

数据库 华为云 企业号 2 月 PK 榜 华为云开发者联盟

快速开发光伏电站数字孪生运维系统——实践类

阿里云AIoT

阿里云 物联网 IoT

LED显示屏怎么翻新?

Dylan

LED LED显示屏 led显示屏厂家

Apipost正式发布《API行业白皮书》!

不想敲代码

API 白皮书 行业趋势 行业报告

从MVC到DDD转变过程中的一点碎碎念

为自己带盐

DDD CQRS

人工智能 LLM 革命前夜:一文读懂ChatGPT缘起的自然语言处理模型Transformer

阿里技术

人工智能 自然语言处理

C#/VB.NET 如何在不同工作簿之间复制单元格范围

在下毛毛雨

C# .net Excel 文档操作

Teradata的离开,是国内ToB服务转变的信号

ToB行业头条

MQTT发布/订阅模式介绍

EMQ映云科技

物联网 IoT mqtt 客户端 企业号 2 月 PK 榜

天翼云联合国际咨询机构IDC发布《中国医疗云建设与应用白皮书》

天翼云开发者社区

serverless与容器优缺点

天翼云开发者社区

serverles

AI 模型评分有标准了!Google Stax 当“裁判”,作弊也难逃“量化法眼”_Google_Sergio De Simone_InfoQ精选文章