Hugging Face 推出全新检索模型评估基准框架 RTEB

Hugging Face 发布检索嵌入基准（Retrieval Embedding Benchmark，RTEB），这是一个新的评估框架，旨在更准确地衡量嵌入模型在真实检索场景下的泛化能力。作为 beta 版本，RTEB 的目标是为开放和私有数据集中的检索精度评估建立社区标准。

检索质量对于各种人工智能系统来说至关重要，例如 RAG、智能体、企业搜索和推荐引擎。然而，现有的基准测试常常无法精准地反映出模型在现实世界中的真实表现。模型可能在公共基准测试中表现良好，但在生产环境中常常不尽如人意，原因在于这些模型是基于评估数据间接训练的，从而导致了“泛化差距”。这使得开发人员很难预测他们的模型将如何处理未见过的数据。

RTEB 采用混合评估策略解决了这一难题。它将公开数据集（这些数据集完全公开且可复现）与仅对 MTEB 维护者开放的私有数据集相结合，确保评估结果真实反映模型的泛化能力，而非单纯依赖于对数据的死记硬背。对于每个私有数据集，仅发布描述性统计数据和少量样本示例，在保持透明度的同时，有效防止数据泄露。

RTEB 不仅在方法论上进行了改进，还特别注重其在现实世界中的实用性。它涵盖了法律、医疗保健、金融和代码等关键领域的数据集，支持从英语和日语到孟加拉语和芬兰语等 20 种语言。此外，基准测试的简洁性也是经过精心设计的：数据集规模适中，既足够大以确保评估结果具有实际意义，又足够小以便于高效进行评估。

RTEB 的推出已在人工智能领域的研究人员与从业者之间引发了广泛讨论。在 LinkedIn 上，Copyleaks 的人工智能负责人 Shai Nisan 博士发表评论：

精彩之作！由衷感谢。无论如何，针对特定任务构建专属的私有基准至关重要，这是预测成功最好的方式。

基准测试的共同作者之一，同时也是 Hugging Face Sentence Transformers 的维护者 Tom Aarsen 回复道：

这是终极目标，但并非每个人都有这些数据。如果你有条件的话，最好使用自己的测试数据。比如，Sentence Transformers 就允许用户轻松替换模型。

该团队还指出了 RTEB 的一些限制和未来发展方向。目前，RTEB 主要专注于纯文本检索，未来计划扩展到多模态任务，例如文本到图像的搜索。此外，团队正在努力扩大语言覆盖范围，尤其是中文、阿拉伯语以及低资源语言，并鼓励社区贡献新的数据集。

RTEB 已在 Hugging Face MTEB 排行榜的新检索板块上线，开发者和研究人员已经可以提交他们的模型参与评估。该项目的维护者强调，这只是一个开始：RTEB 将借助开放协作持续进化，其长远目标是成为社区衡量人工智能检索性能的权威标准。

【声明：本文由 InfoQ 翻译，未经许可禁止转载。】

查看英文原文：https://www.infoq.com/news/2025/10/rteb-benchmark/

创作场景

Hugging Face 推出全新检索模型评估基准框架 RTEB