写点什么

Hugging Face 推出全新检索模型评估基准框架 RTEB

作者:Robert Krzaczyński

  • 2025-10-21
    北京
  • 本文字数:1069 字

    阅读完需:约 4 分钟

大小:519.58K时长:02:57
Hugging Face 推出全新检索模型评估基准框架 RTEB

Hugging Face 发布检索嵌入基准(Retrieval Embedding Benchmark,RTEB),这是一个新的评估框架,旨在更准确地衡量嵌入模型在真实检索场景下的泛化能力。作为 beta 版本,RTEB 的目标是为开放和私有数据集中的检索精度评估建立社区标准。


检索质量对于各种人工智能系统来说至关重要,例如 RAG、智能体、企业搜索和推荐引擎。然而,现有的基准测试常常无法精准地反映出模型在现实世界中的真实表现。模型可能在公共基准测试中表现良好,但在生产环境中常常不尽如人意,原因在于这些模型是基于评估数据间接训练的,从而导致了“泛化差距”。这使得开发人员很难预测他们的模型将如何处理未见过的数据。


RTEB 采用混合评估策略解决了这一难题。它将公开数据集(这些数据集完全公开且可复现)与仅对 MTEB 维护者开放的私有数据集相结合,确保评估结果真实反映模型的泛化能力,而非单纯依赖于对数据的死记硬背。对于每个私有数据集,仅发布描述性统计数据和少量样本示例,在保持透明度的同时,有效防止数据泄露。


RTEB 不仅在方法论上进行了改进,还特别注重其在现实世界中的实用性。它涵盖了法律、医疗保健、金融和代码等关键领域的数据集,支持从英语和日语到孟加拉语和芬兰语等 20 种语言。此外,基准测试的简洁性也是经过精心设计的:数据集规模适中,既足够大以确保评估结果具有实际意义,又足够小以便于高效进行评估。


RTEB 的推出已在人工智能领域的研究人员与从业者之间引发了广泛讨论。在 LinkedIn 上,Copyleaks 的人工智能负责人 Shai Nisan 博士发表评论

精彩之作!由衷感谢。无论如何,针对特定任务构建专属的私有基准至关重要,这是预测成功最好的方式。


基准测试的共同作者之一,同时也是 Hugging Face Sentence Transformers 的维护者 Tom Aarsen 回复道

这是终极目标,但并非每个人都有这些数据。如果你有条件的话,最好使用自己的测试数据。比如,Sentence Transformers 就允许用户轻松替换模型。


该团队还指出了 RTEB 的一些限制和未来发展方向。目前,RTEB 主要专注于纯文本检索,未来计划扩展到多模态任务,例如文本到图像的搜索。此外,团队正在努力扩大语言覆盖范围,尤其是中文、阿拉伯语以及低资源语言,并鼓励社区贡献新的数据集。


RTEB 已在 Hugging Face MTEB 排行榜的新检索板块上线,开发者和研究人员已经可以提交他们的模型参与评估。该项目的维护者强调,这只是一个开始:RTEB 将借助开放协作持续进化,其长远目标是成为社区衡量人工智能检索性能的权威标准。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/rteb-benchmark/

2025-10-21 10:223854

评论

发布
暂无评论

ProsperEx 的野望:借势 RWA 浪潮,构建全新的链上衍生品体系

股市老人

基于smardaten无代码开发智能巡检系统,让无人机飞得更准

海拥(haiyong.site)

强化服务韧性:ChaosBlade磁盘故障模拟的原理与应用

柠檬汁Code(binbin0325)

混沌工程 系统调用 磁盘故障 Chaos 故障模拟

高效数据传输:轻松上手将Kafka实时数据接入CnosDB

CnosDB

kafka CnosDB Telegraf

一键登录助力用户转化率稳步上升

MobTech袤博科技

前端 App 前端开发 秒验 一键登录

AREX Agent 插件开发指南

AREX 中文社区

开源 Java Agent 自动化测试 Mock测试框架 流量回放

千帆大模型平台的海量 Prompt 模板库,带来了什么?

梦想橡皮擦

千帆大模型平台

数科公司转型,从IT运维向价值运营转变

用友BIP

数科公司

职场新人如何避免陷入成长陷阱

老张

职场成长 职场经验

代码随想录Day43 - 动态规划(五)

jjn0703

Programming abstractions in C阅读笔记:p107-p110

codists

c

技术分享 | kill掉mysqld_safe进程会影响mysqld进程?

GreatSQL

数据库 greatsql社区

go的net/http有哪些值得关注的细节?

java易二三

Java 数据库 程序员 计算机

一键登录是如何在登录方式中脱颖而出的?

MobTech袤博科技

前端 前端开发 APP开发 秒验 一键登录

SpringBoot3安全管理

Java spring springboot springsecurity SpringBoot3

开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,为您提供全方位的对话交互体验

汀丶人工智能

人工智能 自然语言处理 nlp 对话机器人 智能对话

一点就通,解析直播源码拉流技术

山东布谷网络科技

浅谈中小企业为何做不好自媒体营销

石头IT视角

全球劳动力革命,Papaya Global 打破薪资界限

CnosDB

Papaya Global 劳动力革命

幸福之道,就在其中

少油少糖八分饱

生活 读书感悟 幸福 阅读笔记 被讨厌的勇气

华为云classroom赋能--Devstar使应用开发无需从零开始

DevOps 软件开发

在 Go 语言单元测试中如何解决文件依赖问题

江湖十年

golang 后端 单元测试

代码随想录Day42 - 动态规划(四)

jjn0703

微信业务架构图

kylexy_0817

#架构实战营

一键式文本纠错工具,整合了BERT、ERNIE等多种模型,让您立即享受纠错的便利和效果

汀丶人工智能

人工智能 自然语言处理 文本纠错

工赋开发者社区 | 主数据管理体系建设与问题分析

工赋开发者社区

企业数字化转型的四个“有为”与六个“数字化

工赋开发者社区

C++使用new来初始化指向类的指针

芯动大师

告警通知全面提升,一键接入多渠道 - 轻松管理,时刻掌控

极限实验室

console agent alerting easysearch

Hugging Face 推出全新检索模型评估基准框架 RTEB_AI&大模型_InfoQ精选文章