Hugging Face 推出了Community Evals功能,使 Hub 上的基准测试数据集能够托管自己的排行榜,并自动从模型存储库中收集评估结果。该系统依托 Hub 基于 Git 的基础设施,实现了基准分数报告和追踪的去中心化,使提交内容透明化、有版本记录且可重现。
在新系统下,数据集存储库可以注册为基准测试。注册完成后,它们会自动收集并显示 Hub 上提交的评估结果。基准测试会遵循Inspect AI格式在 eval.yaml 文件中定义它们的评估规范,描述任务和评估程序,以便结果可以重现。这个系统最初提供的基准测试包括MMLU-Pro、GPQA和HLE,后续会随着时间推移扩展到其他任务。
模型存储库现在可以将评估分数存储在.eval_results/目录下的结构化 YAML 文件中。这些结果会出现在模型卡片上,并自动链接到相应的基准测试数据集。模型作者提交的结果与通过公开拉取请求获取的结果会被汇总。模型作者可以关闭拉取请求或隐藏与其模型相关联的结果。
该系统还允许任何 Hub 用户通过拉取请求提交模型评估结果。社区提交的分数会有相应的标记,并可以引用外部来源,如研究论文、模型卡片、第三方评估平台或评估日志。由于 Hub 运行在 Git 上,对评估文件的所有更改都有版本管理,结果何时被添加或修改以及由谁修改都有记录。关于报告分数的讨论可以直接在拉取请求对应的话题讨论中进行。
Hugging Face 表示,该功能旨在解决论文、模型卡片和评估平台之间基准测试结果报告的不一致性。虽然传统的基准测试仍然被广泛使用,但许多已经达到了高饱和状态,报告的分数也可能会因评估设置而产生差异。通过使用可重现的规范和可见的历史提交记录将模型存储库和基准测试数据集进行链接,新系统旨在使评估报告更加一致且可追溯。
在X和Reddit上,人们的早期反应比较有限,但总体上是积极的。用户愿意看到评估报告变得去中心化和透明化,有些人强调,社区提交的分数比单一基准指标更有价值。
AI 及技术教育专家Himanshu Kumar评论道:
模型评估需要更好的标准化,Hugging Face 的社区评估可能有助于实现这一点。
与此同时,用户@rm-rf-rm分享道:
像 LMArena 这样的平台破坏了模型开发,并激励人们做错误的事情。我认为,这将在很大程度上消除那种不良态势。
该公司强调,Community Evals不会取代现有的基准测试或封闭的评估过程,而是提供一种机制,将社区已产生的评估结果公开展示,并通过 Hub API 实现数据共享。这将使外部工具能够基于标准化数据构建仪表盘、精心设计排行榜或进行比较分析。
该功能目前处于 Beta 测试阶段。想要参与功能测试的开发者,可以在模型存储库中添加 YAML 评估文件,或将数据集存储库注册为基准测试并明确定义评估规范。Hugging Face 表示,他们计划增加支持的基准测试数量,并根据社区反馈持续完善该系统。
原文链接:





