时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

Hugging Face 推出全新检索模型评估基准框架 RTEB

作者:Robert Krzaczyński

  • 2025-10-21
    北京
  • 本文字数:1069 字

    阅读完需:约 4 分钟

大小:519.58K时长:02:57
Hugging Face 推出全新检索模型评估基准框架 RTEB

Hugging Face 发布检索嵌入基准(Retrieval Embedding Benchmark,RTEB),这是一个新的评估框架,旨在更准确地衡量嵌入模型在真实检索场景下的泛化能力。作为 beta 版本,RTEB 的目标是为开放和私有数据集中的检索精度评估建立社区标准。


检索质量对于各种人工智能系统来说至关重要,例如 RAG、智能体、企业搜索和推荐引擎。然而,现有的基准测试常常无法精准地反映出模型在现实世界中的真实表现。模型可能在公共基准测试中表现良好,但在生产环境中常常不尽如人意,原因在于这些模型是基于评估数据间接训练的,从而导致了“泛化差距”。这使得开发人员很难预测他们的模型将如何处理未见过的数据。


RTEB 采用混合评估策略解决了这一难题。它将公开数据集(这些数据集完全公开且可复现)与仅对 MTEB 维护者开放的私有数据集相结合,确保评估结果真实反映模型的泛化能力,而非单纯依赖于对数据的死记硬背。对于每个私有数据集,仅发布描述性统计数据和少量样本示例,在保持透明度的同时,有效防止数据泄露。


RTEB 不仅在方法论上进行了改进,还特别注重其在现实世界中的实用性。它涵盖了法律、医疗保健、金融和代码等关键领域的数据集,支持从英语和日语到孟加拉语和芬兰语等 20 种语言。此外,基准测试的简洁性也是经过精心设计的:数据集规模适中,既足够大以确保评估结果具有实际意义,又足够小以便于高效进行评估。


RTEB 的推出已在人工智能领域的研究人员与从业者之间引发了广泛讨论。在 LinkedIn 上,Copyleaks 的人工智能负责人 Shai Nisan 博士发表评论

精彩之作!由衷感谢。无论如何,针对特定任务构建专属的私有基准至关重要,这是预测成功最好的方式。


基准测试的共同作者之一,同时也是 Hugging Face Sentence Transformers 的维护者 Tom Aarsen 回复道

这是终极目标,但并非每个人都有这些数据。如果你有条件的话,最好使用自己的测试数据。比如,Sentence Transformers 就允许用户轻松替换模型。


该团队还指出了 RTEB 的一些限制和未来发展方向。目前,RTEB 主要专注于纯文本检索,未来计划扩展到多模态任务,例如文本到图像的搜索。此外,团队正在努力扩大语言覆盖范围,尤其是中文、阿拉伯语以及低资源语言,并鼓励社区贡献新的数据集。


RTEB 已在 Hugging Face MTEB 排行榜的新检索板块上线,开发者和研究人员已经可以提交他们的模型参与评估。该项目的维护者强调,这只是一个开始:RTEB 将借助开放协作持续进化,其长远目标是成为社区衡量人工智能检索性能的权威标准。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/rteb-benchmark/

2025-10-21 10:228

评论

发布
暂无评论

头部银行 AI 落地实践|数据应用赋能经营管理闭环

Kyligence

众安保险AI代码助手DevPilot获奖,全面开源构筑技术新生态

ZA技术社区

.NET Core 服务实现监控可观测性最佳实践

观测云

.net core

海信电视U8N Pro,用AI算尽 “每一粒沙”

脑极体

AI

有赞畅捷通T+对接无忧,业务体验双升级!

聚道云软件连接器

案例分享

实时数据采集:选品利器,API接口一网打尽

技术冰糖葫芦

API 接口

选择美国高防服务器出租,提升网络防御力

一只扑棱蛾子

美国高防服务器 高防服务器

美国对苹果提起反垄断诉讼;周鸿祎:不转向 AI 手机的厂商会成下一个「诺基亚」丨 RTE 开发者日报 Vol.170

声网

颠覆传统开发流程!「原型、设计、开发」仅需一个组件设计器就够了!

优秀

低代码 组件设计器

热点!浅谈低代码到底是什么?

互联网工科生

策略分析轻松搞定!10款免费可视化模板助你提升分析效率!

彭宏豪95

在线白板 办公软件 效率软件 SWOT boardmix

Prompt进阶系列4:LangGPT(构建高性能Prompt实践指南)--结构化Prompt

汀丶人工智能

人工智能 Prompt工程

低代码助力企业数智转型

不在线第一只蜗牛

低代码 数智转型

一个案例,看懂AI Agent厂商的商业落地路径

王吉伟频道

LLM 大语言模型 AI Agent AI智能体 RPA Agent

专访天谋科技 CTO 乔嘉林:一个顶级开源项目背后,还需要淬炼多个“最后一公里”

Apache IoTDB

GTC 2024 火线评论:GPU 的高效存储利用

XSKY星辰天合

分布式存储 软件定义存储 GTC2024

Go 语法糖 for range 中的 copy 问题

蓬蒿

golang

Java22重磅发布!!!!卷不动了,真的卷不动了。。。。

不在线第一只蜗牛

Java 前端 前端开发

【教程】深入探究 JS代码混淆与加密技术

深度解析大模型的关键特性与优势

木南曌

#大模型

jackson对象带时间的转换报错,附带fastjson封装工具就填

光进

java‘

Hugging Face 推出全新检索模型评估基准框架 RTEB_AI&大模型_InfoQ精选文章