写点什么

成本节省 40%,作业帮检索系统重构实践分享 | QCon 北京

  • 2025-03-22
    北京
  • 本文字数:1696 字

    阅读完需:约 6 分钟

成本节省40%,作业帮检索系统重构实践分享 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


作业帮智能技术实验室工程架构团队负责人程童已确认出席并发表题为《作业帮检索系统重构:Havenask 实践案例分享》的主题分享。作业帮的 OCR 与检索系统自 2015 年上线以来,一直为作业帮各项业务提供高效算法能力支持。然而,随着流量、数据规模和业务形态的不断增长,原有召回引擎虽在时延和吞吐上有优势,但在容量及功能上的瓶颈逐渐显现。 从 2020 年开始,团队探索了多种优化方案,最终使用开源替换,新系统上线后,业务实现了 40% 以上的成本节省,系统能力天花板大幅提升。这一过程不仅推动了 Havenask 项目开源,也为相关技术选型提供了新方案,通过大规模系统落地验证了其可用性和可靠性。本次演讲将重点分享作业帮 OCR 与检索系统在面对业务增长和技术瓶颈时的优化历程,包括选择和推动开源项目 Havenask 的落地,以及通过技术优化实现性能提升的实践经验,为 AI 时代下的检索系统选型提供参考。


程童 2012 年毕业后入职百度,2015 年跟随作业帮分拆出来至今,见证了作业帮从初创至今十年的发展历程,经历了 OCR 和检索系统从 0 到 1 并持续迭代优化的全过程,主要参与工程架构方向的工作,重点负责系统的性能和稳定性。他在本次会议的详细演讲内容如下:


演讲提纲

1. 结果很重要:十年系统能力重塑,拥抱 AI 时代

  • 大规模检索系统成本节省 40+%

  • 低成本支撑数据爆发增长

  • 业务多元化,高效支持 AI 功能需求

2. 面对的问题

  • 业务背景

  • 传统题目检索场景

  • 系统架构和约束条件

  • 提炼核心矛盾

  • 特定查询范式下的时延要求

  • 单位吞吐支撑的索引容量

  • 高性能向量检索

3. 思路和决策

  • 现有基础上迭代优化

  • 彻底重构:自研 vs 开源

  • 用户视角的 Havenask 开源历程

4. 实践过程

  • 难点:性能效果双红线

  • Bad Case:压测、Query Cache

  • Good Case:索引排序、numa 绑定、大页内存、粗排优化、排序模型适配、部署方案适配、Subquery 生成和执行优化

5. 总结

  • 业务层面

  • 新版系统效果更好,成本更低,能力更强 - 有效支撑业务快速探索的需求

  • 技术层面

  • 此次实践催化了 Havenask 项目的开源,为技术选型提供了一种新的方案

  • 通过大规模系统落地验证了其可用性可靠性,可作为参考案例


您认为,这样的技术在实践过程中有哪些痛点?

  • 风险很高:一切都是不确定的,推动一个商业项目的核心引擎开源本身就很不确定;即便开源,在一个核心业务核心系统里启用未经验证过的项目,也是一个非常激进的想法。成,很难说功成名就,但败大概率职业生涯会大受影响。这个案例的前半部分我觉得无法复制, Havenask 的开源存在一定偶然性。我们再实施过程中也是边走边看,不断准备 PLAN B 甚至 C。直到我们落地改造前,没有哪一方是能掌控事情的发展的。

  • 替换难度:即便 Havenask 开源了,也不是说开箱可用,用了就会出现奇效,动一个核心系统底层本身就有难度,再和一个新项目磨合问题就会更多,在实施过程中我们也遇到了因判断错误引发的问题,一度影响士气,甚至到了质疑自己不求有收益只求能平安上线的地步。问题解决都是一步一步磨过来的,没有多么的高大上和云淡风轻,我觉得比较难熬,但这个项目落地以后,证明这条路是可行的,搜广推还有一套新的技术方案可选,当前的不足后续的人一定会有更好的办法解决。


演讲亮点

  • 拍搜检索属于一个垂类检索,与通用网页搜索行为存在较大差异,也很少对外介绍,通过这个案例可以了解一些业务场景上和实践上的区别

  • 这个案例也是 Havenask 开源后首个大规模的系统落地实践,相当于是一个参考案例


听众收益

  • 一定程度了解作业帮 OCR & 检索系统的工作场景

  • 了解此次系统升级的发展过程,我们是如何对比判断以及决策的


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-22 12:114372

评论

发布
暂无评论

OneAccess | 面对庞大复杂的身份和权限管理,企业该怎么办?

爱尚科技

软件测试 / 测试开发 / BAT大厂都在用的Docker。学会这三招,面试、工作轻松hold住

测试人

Docker 容器 软件测试 测试开发 环境搭建

为什么说DeFi隐私协议Unijoin.io具备趋势性

股市老人

探讨丨SaaS软件是否正在“毁掉”数字化转型企业?

优秀

数字化转型

和鲸科技入选2022中国企业数智化创新TOP50

ModelWhale

数字化转型 数智化 榜单

复杂并发场景下的并发调度模型在转转的演进之路

转转技术团队

Java 性能 后端 高并发

Vertically Federated Graph Neural Network for Privacy-Preserving Node Classification

1+1=王

联邦学习 Fl 图神经网络 GNN 节点分类

数据存储安全责任重于泰山,看华为云对象存储服务OBS如何大展身手

IT科技苏辞

部门来了个JAVA开发,听说是00后,上来一顿操作给我看呆了...

程序知音

Java JAVA开发 java面试 java架构 后端技术

图查询语言 nGQL 简明教程 vol.01 快速入门

NebulaGraph

图数据库

华为云数据融合集成平台ROMA Connect,推进企业数字化转型

科技怪授

动态配置开发模式在转转的落地实践

转转技术团队

Java 后端 可视化 动态配置

正式毕业!Apache Kyuubi 成为 Apache 基金会顶级项目!

网易数帆

大数据 spark 开源 Apache Kyuubi

运维工作汇报那天,集团领导过来视察...

嘉为蓝鲸

自动化运维 嘉为蓝鲸

数据存储难?华为云对象存储OBS轻松解决

IT科技苏辞

2022年11月视频行业用户洞察:世界杯效应显著,咪咕视频凭借大屏、小屏同时触达球迷群体,未来体育营销将更加激烈

易观分析

视频 世界杯

数据存储的全能侠——华为云对象存储服务OBS

IT科技苏辞

华为云低代码技术:让矿区管理“智变”,一览无遗

科技怪授

“数字·进化”——2022数字化发展峰会圆满落幕

创业邦

ModStart交给您的开源年终总结

ModStart

一文读懂 | Getaverse 节点部署

Geek_Web3

说透IO多路复用模型

C++后台开发

socket linux开发 epoll IO多路复用 C++开发

软件测试 | 掌握高频 Docker 命令,夯实内功基础

测试人

Docker 软件测试 自动化测试 测试开发 环境搭建

数据存储服务的百宝箱——华为云对象存储服务OBS

IT科技苏辞

企业数据如何存?华为云对象存储服务OBS帮您忙

IT科技苏辞

Oracle数据库安装配置详细教程汇总(含11g、12c、18c、19c、21c)

墨天轮

数据库 oracle 升级 安装 & 部署

Web应用怎样获取Access Token?

HarmonyOS SDK

HMS Core

华为云CSE 关键特性,支持托管Nacos注册配置中心

与时俱进的时代

泰山众筹4.0合约系统开发技术

薇電13242772558

智能合约

开个脑洞,带你写一个自己的极狐GitLab CI Runner

极狐GitLab

DevOps 持续集成 CI/CD runner 极狐GitLab

如何用Alluxio加速云上深度学习训练?

Alluxio

机器学习 分布式, Alluxio 大数据 开源 数据编排

成本节省40%,作业帮检索系统重构实践分享 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章