写点什么

Hugging Face 推出全新检索模型评估基准框架 RTEB

作者:Robert Krzaczyński

  • 2025-10-21
    北京
  • 本文字数:1069 字

    阅读完需:约 4 分钟

大小:519.58K时长:02:57
Hugging Face 推出全新检索模型评估基准框架 RTEB

Hugging Face 发布检索嵌入基准(Retrieval Embedding Benchmark,RTEB),这是一个新的评估框架,旨在更准确地衡量嵌入模型在真实检索场景下的泛化能力。作为 beta 版本,RTEB 的目标是为开放和私有数据集中的检索精度评估建立社区标准。


检索质量对于各种人工智能系统来说至关重要,例如 RAG、智能体、企业搜索和推荐引擎。然而,现有的基准测试常常无法精准地反映出模型在现实世界中的真实表现。模型可能在公共基准测试中表现良好,但在生产环境中常常不尽如人意,原因在于这些模型是基于评估数据间接训练的,从而导致了“泛化差距”。这使得开发人员很难预测他们的模型将如何处理未见过的数据。


RTEB 采用混合评估策略解决了这一难题。它将公开数据集(这些数据集完全公开且可复现)与仅对 MTEB 维护者开放的私有数据集相结合,确保评估结果真实反映模型的泛化能力,而非单纯依赖于对数据的死记硬背。对于每个私有数据集,仅发布描述性统计数据和少量样本示例,在保持透明度的同时,有效防止数据泄露。


RTEB 不仅在方法论上进行了改进,还特别注重其在现实世界中的实用性。它涵盖了法律、医疗保健、金融和代码等关键领域的数据集,支持从英语和日语到孟加拉语和芬兰语等 20 种语言。此外,基准测试的简洁性也是经过精心设计的:数据集规模适中,既足够大以确保评估结果具有实际意义,又足够小以便于高效进行评估。


RTEB 的推出已在人工智能领域的研究人员与从业者之间引发了广泛讨论。在 LinkedIn 上,Copyleaks 的人工智能负责人 Shai Nisan 博士发表评论

精彩之作!由衷感谢。无论如何,针对特定任务构建专属的私有基准至关重要,这是预测成功最好的方式。


基准测试的共同作者之一,同时也是 Hugging Face Sentence Transformers 的维护者 Tom Aarsen 回复道

这是终极目标,但并非每个人都有这些数据。如果你有条件的话,最好使用自己的测试数据。比如,Sentence Transformers 就允许用户轻松替换模型。


该团队还指出了 RTEB 的一些限制和未来发展方向。目前,RTEB 主要专注于纯文本检索,未来计划扩展到多模态任务,例如文本到图像的搜索。此外,团队正在努力扩大语言覆盖范围,尤其是中文、阿拉伯语以及低资源语言,并鼓励社区贡献新的数据集。


RTEB 已在 Hugging Face MTEB 排行榜的新检索板块上线,开发者和研究人员已经可以提交他们的模型参与评估。该项目的维护者强调,这只是一个开始:RTEB 将借助开放协作持续进化,其长远目标是成为社区衡量人工智能检索性能的权威标准。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/rteb-benchmark/

2025-10-21 10:223985

评论

发布
暂无评论

向量数据库如何助力Text2SQL处理高基数类别数据

Zilliz

text2sql Zilli Cloud Waii 高基数类别数据

故障测试与性能测试交叉实践

FunTester

探索基于大语言模型的多智能体系统:AIP智能体平台引领新纪元

大东(AIP智能体运营专员)

人工智能

DNS故障是怎么回事?DNS故障怎么解决?

防火墙后吃泡面

HBase深度历险

京东科技开发者

基于云主机搭建Termgraph绘图工具,将数据转化为可视化图形

华为云开发者联盟

Python 云主机 鲲鹏 ECS 华为开发者空间

版面分析技术研究方向:真实世界中更丰富的版面布局

合合技术团队

人工智能 AI 数据集 Transformer

音视频编解码的开发框架

北京木奇移动技术有限公司

音视频开发 音视频引擎 软件外包公司

AIP智能体平台:开启AI技术的新篇章

大东(AIP智能体运营专员)

人工智能

记录一次RPC服务有损上线的分析过程

京东科技开发者

哈啰:构建智能出行RAG,ES还是向量数据库?

Zilliz

Milvus 向量数据库 rag 哈啰 zilliz cloud

从AI生成内容到虚拟现实:娱乐体验的新边界

天津汇柏科技有限公司

增强现实 VR虚拟现实 AI 人工智能

正式开源,Doris Operator 支持高效 Kubernetes 容器化部署方案

SelectDB

数据库 数据分析 部署 Kubernetes Serverless 容器化部署

社交软件红包技术解密(五):微信红包系统是如何实现高可用性的

JackJiang

网络编程 即时通讯 IM

没想到学会这个 canvas 库,竟然做这么多项目

秦少卫

Fabric.js 开源图片编辑器 开源vue图片编辑器 商品定制工具 服装设计工具

破局铜加工生产管理困境:MES系统引领智能化转型

万界星空科技

制造业 mes 万界星空科技 铜管加工行业mes 铜加工行业

VMware ESXi 8.0U3c macOS Unlocker & OEM BIOS ConnectX-3 网卡定制版 (集成驱动版)

sysin

esxi

三大智能体平台对比分析:FastGPT、Dify、Coze 哪个更适合你?

测试人

软件测试

CST软件如何计算天线系数Antenna Factor-达索官方授权

思茂信息

cst cst操作 CST软件

反向 Debug 了解一下?揭秘 Java DEBUG 的基本原理

京东科技开发者

【FAQ】HarmonyOS SDK 闭源开放能力 —Map Kit(4)

HarmonyOS SDK

harmoyos

质变科技 AI-ready Data Cloud:元数据和事务系统的技术难题和关键设计

AI数据云Relyt

Serverless 元数据 snowflake 云原生数据仓库

智能简历筛选系统:AIP打造高效招聘新纪元

大东(AIP智能体运营专员)

人工智能

Hugging Face 推出全新检索模型评估基准框架 RTEB_AI&大模型_InfoQ精选文章