写点什么

AI 模型评分有标准了!Google Stax 当“裁判”,作弊也难逃“量化法眼”

  • 2025-10-02
    北京
  • 本文字数:881 字

    阅读完需:约 3 分钟

大小:430.25K时长:02:26
AI 模型评分有标准了!Google Stax 当“裁判”,作弊也难逃“量化法眼”

Google 推出的 Stax 框架,旨在用客观、数据驱动且可重复的方法,取代 AI 模型传统的主观评估。Google 表示,这一工具让开发者能够根据自身应用场景定制评测流程,而不必依赖通用的基准测试。


据 Google 介绍,评测对于选择合适的模型至关重要,它可以通过比较质量、延迟和成本来判断模型是否适合特定解决方案。同时,评测也是评估提示工程和微调效果的关键手段。此外,在智能体(agent)编排中,可重复的基准测试也非常有价值,它能确保各智能体及组件之间可靠协作。


Stax 提供数据和工具,帮助开发者构建结合人工判断与自动评估器的基准测试。开发者可以导入生产环境可用的数据集,也可以创建自己的数据集,既可上传现有数据,也可利用大语言模型生成合成数据集。同样,Stax 还内置了一系列默认评估器,可用于常见指标,如输出冗长程度和摘要能力,同时也允许开发者创建自定义评估器,以满足更具体或精细的评测需求。


创建自定义评估器只需几个步骤。首先选择一个基础 LLM 作为裁判,,然后提供评估提示(prompt),指导裁判如何评分。提示中需要包含评分类别及其对应的 0.0 至 1.0 分值,同时指明期望的输出格式,并可使用 {{output}}、{{input}}、{{history}}、{{expected_output}} 和 {{metadata.key}} 等变量。为了确保评估器可靠,应通过经典的监督学习方法,将其与可信的人类评分进行校准。之后,还可以通过迭代微调提示,提高评估器评分与人类评分的一致性。


Stax 并非唯一可用的 AI 模型评测工具。其竞品包括 OpenAI EvalsDeepEvalMLFlow LLM Evaluate 等,不同工具在方法和功能上各有差异。


目前,Stax 已经支持为越来越多的模型供应商进行基准测试,包括 OpenAI、Anthropic、Mistral、Grok、DeepSeek 以及 Google 自家的模型,同时也可用于自定义模型端点。Stax 在测试阶段免费使用,但 Google 表示,未来可能会引入收费模式。


关于数据隐私,Google 强调不会收集用户数据,包括提示、定制数据集或评估器,也不会将其用于训练自家语言模型。不过,用户在使用其他供应商服务时,需要遵守对应的隐私政策。


原文链接:

https://www.infoq.com/news/2025/09/google-stax-ai-evaluation/

2025-10-02 08:0014562

评论

发布
暂无评论
发现更多内容

阿里云 EMR StarRocks 在七猫的应用和实践

阿里云大数据AI技术

云计算 大数据 阿里云 EMR

Percona Toolkit 神器全攻略(性能类)

GreatSQL

NPU 与 GPU 相比,有什么差别?| 技术速览

Baihai IDP

程序员 AI gpu 企业 9 月 PK 榜 NPU

软件测试 | 手工转测试开发轻松实现薪资 50%涨幅的逆袭之路

测试人

软件测试

交换机是什么?云管理平台可以管理交换吗?

行云管家

云计算 云服务 交换机 云管理

mcgs笔记 新建工程与模拟运行

万里无云万里天

自动化 HMI mcgs

LeetCode:240. 搜索二维矩阵 II,直接查找,详细注释

Lee Chen

远航汽车远勤山:品质技术服务放首位 扎根新能源汽车赛道持续远航

极客天地

超级驾趣学院 长安马自达MAZDA EZ-6驾驭全场景出行

极客天地

2024 医疗 Datathon 又叕来啦~!“理-工-医-信”跨学科联合科研,以数据驱动医疗实践

ModelWhale

R 语言 datathon 医疗大数据

金蝶云·苍穹OEM版产品正式发布!AI时代共创软件产业新质生产力

金蝶云·苍穹

金蝶 生态伙伴 金蝶云苍穹

NocoBase 与 NocoDB:开源无代码工具深度对比

NocoBase

开源 低代码 无代码开发 低代码开发 无代码

非凸科技钻石赞助第四届Rust China Conf 2024

非凸科技

一文说清楚数据集成中的流处理与批处理的区别

谷云科技RestCloud

Apache 数据处理 批处理 ETL 流处理

SQL 中 Drop、Delete 与 Truncate 的区别

Chat2DB

数据库 开源 AI sql

动物目标检测——基于YOLOv5和树莓派4B平台

芯动大师

人工智能 机器学习 AIGC

TDengine 签约前晨汽车,解锁智能出行的无限潜力

TDengine

数据库 tdengine 时序数据库

强化安全防线:融合反射API与代码注入防护的先进策略

代码忍者

API 测试 pinduoduo API

三国策略游戏下载:三国志11威力加强版 (Win&Mac)版下载

你的猪会飞吗

三国志11威力加强版 Mac游戏下载 mac破解软件下载

【黄金圆环】在研发领域的实践分享

京东科技开发者

襄阳等保测评机构有哪些?在哪里?

行云管家

等保 等保测评

火山引擎VeDI核心产品DataTester再进化,A/B大模型应用评测功能上线

字节跳动数据平台

大数据 A/B 测试 对比实验 数字化增长

《黑神话:悟空》真的带火云电脑了吗?

脑极体

AI

How Can Unity+腾讯云开发=微信小游戏?

蛋先生DX

腾讯云 Unity 数据模型 云开发 微信小游戏

🌍 "独立开发者出海技术栈和工具" 现已上线!

Immerse

独立开发者 工具 技术栈 出海 工具站

天猫商品详情数据接口:利用接口工具获取数据

tbapi

天猫API接口 天猫商品详情接口

AI 模型评分有标准了!Google Stax 当“裁判”,作弊也难逃“量化法眼”_Google_Sergio De Simone_InfoQ精选文章