AI 模型评分有标准了！Google Stax 当“裁判”，作弊也难逃“量化法眼”

Google 推出的 Stax 框架，旨在用客观、数据驱动且可重复的方法，取代 AI 模型传统的主观评估。Google 表示，这一工具让开发者能够根据自身应用场景定制评测流程，而不必依赖通用的基准测试。

据 Google 介绍，评测对于选择合适的模型至关重要，它可以通过比较质量、延迟和成本来判断模型是否适合特定解决方案。同时，评测也是评估提示工程和微调效果的关键手段。此外，在智能体（agent）编排中，可重复的基准测试也非常有价值，它能确保各智能体及组件之间可靠协作。

Stax 提供数据和工具，帮助开发者构建结合人工判断与自动评估器的基准测试。开发者可以导入生产环境可用的数据集，也可以创建自己的数据集，既可上传现有数据，也可利用大语言模型生成合成数据集。同样，Stax 还内置了一系列默认评估器，可用于常见指标，如输出冗长程度和摘要能力，同时也允许开发者创建自定义评估器，以满足更具体或精细的评测需求。

创建自定义评估器只需几个步骤。首先选择一个基础 LLM 作为裁判，，然后提供评估提示（prompt），指导裁判如何评分。提示中需要包含评分类别及其对应的 0.0 至 1.0 分值，同时指明期望的输出格式，并可使用 {{output}}、{{input}}、{{history}}、{{expected_output}} 和 {{metadata.key}} 等变量。为了确保评估器可靠，应通过经典的监督学习方法，将其与可信的人类评分进行校准。之后，还可以通过迭代微调提示，提高评估器评分与人类评分的一致性。

Stax 并非唯一可用的 AI 模型评测工具。其竞品包括 OpenAI Evals、DeepEval、MLFlow LLM Evaluate 等，不同工具在方法和功能上各有差异。

目前，Stax 已经支持为越来越多的模型供应商进行基准测试，包括 OpenAI、Anthropic、Mistral、Grok、DeepSeek 以及 Google 自家的模型，同时也可用于自定义模型端点。Stax 在测试阶段免费使用，但 Google 表示，未来可能会引入收费模式。

关于数据隐私，Google 强调不会收集用户数据，包括提示、定制数据集或评估器，也不会将其用于训练自家语言模型。不过，用户在使用其他供应商服务时，需要遵守对应的隐私政策。

原文链接：

https://www.infoq.com/news/2025/09/google-stax-ai-evaluation/

创作场景

AI 模型评分有标准了！Google Stax 当“裁判”，作弊也难逃“量化法眼”