写点什么

RAG 驱动的 Copilot 为 Uber 节省了 13,000 个工程小时

作者:Eran Stiller

  • 2024-11-28
    北京
  • 本文字数:1125 字

    阅读完需:约 4 分钟

RAG 驱动的 Copilot 为 Uber 节省了 13,000 个工程小时

Uber 最近详细介绍了它构建 Genie 的经历,这是一款由 AI 驱动的随时待命的 Copilot,旨在提高随时待命的支持工程师的效率。Genie 利用检索增强生成(RAG)技术提供准确的实时响应,并显著提高事件响应的速度和效率。


自 2023 年 9 月推出以来,Genie 对 Uber 的支持团队产生了重大影响。它已在 154 个 Slack 频道中回答了超过 70,000 个问题,节省了大约 13,000 个工程小时,根据用户的评估,其回答有效率为 48.9%。


Uber 的待命工程师通常花费大量时间答复重复的查询或浏览零散的文档,使用户难以独立找到答案。这些情况导致了响应时间过长和生产力下降,这也是构建 Genie 的驱动力。


Uber 使用检索增强生成(RAG)来驱动 Genie。RAG 是一种创新方法,它将信息检索系统的优势与生成式 AI 模型相结合,以产生准确且相关的响应。它让 Uber 可以利用现有知识来源快速部署解决方案,这样就用不着 AI 模型微调所需的大量示例数据了。


Genie 从各种内部来源提取数据,例如 Uber 的 wiki、Stack Overflow 和工程文档。信息被抓取后,使用 OpenAI 模型转换为向量嵌入,并存储在 Uber 的内部向量数据库 Search In Action(SIA)中。Genie 仅从预先批准的数据源提取数据,且不包含敏感数据,以避免泄露敏感信息。


Genie 的整体架构(来源)


当用户在 Slack 中提出问题时,查询会被转换为嵌入,Genie 会使用该嵌入在向量数据库中获取上下文相似的数据。然后它将这些数据输入到大型语言模型中,以根据检索到的信息生成准确的响应。


Uber 实施了一个指标框架,通过持续的实时用户反馈来提高 Genie 的性能。在 Genie 回答问题后,用户可以通过选择“已解决”、“有帮助”或“不相关”等选项来提供反馈。


Genie 的用户反馈流程(来源)


这些反馈通过 Slack 插件收集,并使用 Uber 的内部数据流系统处理,将指标发送到 Hive 表中分析。反馈循环允许 Uber 的团队跟踪 Genie 的帮助有效率,并根据真实的用户体验改进其响应。


对于性能评估,Uber 设计了一个自定义评估管道,用于评估各种指标,例如幻觉率和响应的相关性。该管道处理的是历史数据,包括 Slack 元数据、用户反馈和 Genie 以前的响应。它通过由 LLM 提供支持的评分系统来处理这些数据,用这个系统充当评判者。


Uber 还采用了一套文档评估流程,以保障 Genie 在其响应中检索和使用的信息的质量。系统将抓取的知识库转换为结构化格式,其中一行代表一个文档。


文档评估应用程序的工作流程(来源)


Genie 将这些文档输入带有自定义评估提示的 LLM 来评估每个文档的清晰度、准确性和实用性。然后,LLM 返回分数并提供改进每个文档的可行建议。此过程有助于保持底层文档的高标准,确保 Genie 的响应保持可靠和有效。


查看原文链接:

https://www.infoq.com/news/2024/10/uber-genie-rag-copilot/

2024-11-28 08:038752

评论

发布
暂无评论
发现更多内容

做7秒动画赢13W大奖?总奖池超80W、国内最火爆的3D渲染动画创作大赛开始报名!

Renderbus瑞云渲染农场

3D渲染动画大赛 3D动画制作 瑞云渲染CG竞赛

手动测试依然很重要

FunTester

持续应用安全(CAS)研讨之:Fuzzing

云起无垠

如何设计一个高性能的图 Schema

NebulaGraph

图数据库 图建模

自助取数、即席分析...瓴羊Quick BI助力企业数字化转型

对不起该用户已成仙‖

服开与编排,老兵新传

鲸品堂

电信运营商 12 月 PK 榜

我们是如何追逐元宇宙、XR等“概念股”浪潮的?

阿里巴巴终端技术

3D渲染 3D vr

小游戏开发者变现攻略

Onegun

小程序 超级app 小游戏

构建数字时代下的软件供应链安全体系

云起无垠

软件 软件供应链安全

带你手把手实操一个RPC框架

得物技术

架构 中间件 java client prc 12 月 PK 榜

软件测试丨基于Junit4,利用xUnit框架让你的测试用例可维护性大幅提升

测试人

软件测试 单元测试 自动化测试 测试框架 测试开发

掌握分布式环境缓存更新策略,提高缓存与数据库双写一致性!

C++后台开发

数据库 redis 分布式 中间件 后端开发

DTCC2022预告 | 玖章算术叶正盛:程序员必须掌握的数据库原理

NineData

数据库 数据迁移 数据管理 DTCC2022 NineData

企业数字化转型关键路径:构建数据驱动的管控体系

元年技术洞察

数字化转型 数据驱动 方舟平台

如何绘制甘特图?这里有一份最全的教学指南(建议收藏使用)!

PMO实践

甘特图 PMO 项目经理

盘点新能源汽车常用的8种传感器

元器件秋姐

传感器 新能源汽车 智能传感器 新能源 IGBT

开发小游戏的流程及难点汇总

Onegun

小程序 小程序容器 小游戏 小游戏开发

如何在Android安卓环境运行小程序游戏

Onegun

安卓 andiod 小游戏

为云原生插上翅膀,天翼云弹性存储CStor-CSI助力容器腾飞

天翼云开发者社区

容器 云原生 云存储

JAVA中的注解可以继承吗?

JAVA旭阳

Java

易观千帆 | 10月手机银行APP用户体验GX评测

易观分析

手机银行 GX评测

数字孪生可视化技术打造未来智慧码头系统

2D3D前端可视化开发

物联网 智慧港口 数字孪生 智慧码头 5G智慧港口

什么是BPM系统?BPM流程管理系统介绍

优秀

BPM 业务流程管理

YMatrix 创始人姚延栋,获“最具发展潜力与创新影响力的创业者”称号

YMatrix 超融合数据库

创业 超融合数据库 YMatrix

新思科技发布第13版软件安全构建成熟度模型报告

InfoQ_434670063458

安全评估 新思科技 BSIMM

matic链佛萨奇系统开发源代码快速部署上线

开发微hkkf5566

多样化数据看板,瓴羊Quick BI满足企业经营管理需求

对不起该用户已成仙‖

应用并管控“两库”是信创软件安全的核心能力

云起无垠

Fuzzing

Python 缩进语法的起源:上世纪 60-70 年代的大胆创意!

Python猫

Python

去哪儿是如何做到大规模故障演练的?

TakinTalks稳定性社区

自动化 混沌工程 故障演练

RAG 驱动的 Copilot 为 Uber 节省了 13,000 个工程小时_性能优化_InfoQ精选文章