
Google 推出的 Stax 框架,旨在用客观、数据驱动且可重复的方法,取代 AI 模型传统的主观评估。Google 表示,这一工具让开发者能够根据自身应用场景定制评测流程,而不必依赖通用的基准测试。
据 Google 介绍,评测对于选择合适的模型至关重要,它可以通过比较质量、延迟和成本来判断模型是否适合特定解决方案。同时,评测也是评估提示工程和微调效果的关键手段。此外,在智能体(agent)编排中,可重复的基准测试也非常有价值,它能确保各智能体及组件之间可靠协作。
Stax 提供数据和工具,帮助开发者构建结合人工判断与自动评估器的基准测试。开发者可以导入生产环境可用的数据集,也可以创建自己的数据集,既可上传现有数据,也可利用大语言模型生成合成数据集。同样,Stax 还内置了一系列默认评估器,可用于常见指标,如输出冗长程度和摘要能力,同时也允许开发者创建自定义评估器,以满足更具体或精细的评测需求。
创建自定义评估器只需几个步骤。首先选择一个基础 LLM 作为裁判,,然后提供评估提示(prompt),指导裁判如何评分。提示中需要包含评分类别及其对应的 0.0 至 1.0 分值,同时指明期望的输出格式,并可使用 {{output}}、{{input}}、{{history}}、{{expected_output}} 和 {{metadata.key}} 等变量。为了确保评估器可靠,应通过经典的监督学习方法,将其与可信的人类评分进行校准。之后,还可以通过迭代微调提示,提高评估器评分与人类评分的一致性。
Stax 并非唯一可用的 AI 模型评测工具。其竞品包括 OpenAI Evals、DeepEval、MLFlow LLM Evaluate 等,不同工具在方法和功能上各有差异。
目前,Stax 已经支持为越来越多的模型供应商进行基准测试,包括 OpenAI、Anthropic、Mistral、Grok、DeepSeek 以及 Google 自家的模型,同时也可用于自定义模型端点。Stax 在测试阶段免费使用,但 Google 表示,未来可能会引入收费模式。
关于数据隐私,Google 强调不会收集用户数据,包括提示、定制数据集或评估器,也不会将其用于训练自家语言模型。不过,用户在使用其他供应商服务时,需要遵守对应的隐私政策。
原文链接:
https://www.infoq.com/news/2025/09/google-stax-ai-evaluation/
评论