50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon 北京

  • 2025-03-26
    北京
  • 本文字数:2000 字

    阅读完需:约 7 分钟

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


饿了么资深技术专家李佳慧已确认出席并发表题为《突破算法评测困境:饿了么即时配送算法评测与优化实践》的主题分享。即时配送业务需要在规定的时间和空间范围内,调度千万量级的订单和百万量级的骑手进行匹配,过程中应用了大量的智能算法。由于算法的可解释性弱、线下评测难度大等问题,饿了么在算法评测领域进行了深入的探索和实践。核心聚焦在算法效果评测的方案生成和平台建设,涵盖评测集筛选、评测指标制定,算法服务结果采集、评测报告生成、分析和 badcase 归因定位,最终给出线下评测结论,同时在效果评测和 badcase 分析的基础上,进一步给出算法优化方向的建议,帮助算法团队在上线前把控算法的迭代效果,缩短迭代优化周期。目前,基于该评测理论开发的算法评测平台支持可定制化的评测和分析定位能力,覆盖了饿了么的商流、物流等多个算法方向,显著提升了算法迭代的效率和质量。本次演讲李佳慧将分享饿了么即时配送算法评测与优化过程中的痛点案例及解决之道。


李佳慧,饿了么资深技术专家。在 IBM 从事 Rational 软件管理相关产品 RQM 的开发工作以及在 vmware 从事虚拟化产品的质量保障工作;2016 年加入阿里后,在阿里妈妈从事广告搜索引擎质量保障;2020 年开始在饿了么物流团队负责履约等核心链路的质量保障工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 算法迭代流程中常见问题和痛点

2. 算法效果评测方案 & 平台落地 & 案例

  • 算法评测指标设计

  • 筛选和生成自带标签的评测集

  • 算法服务数据采集

  • 评测结果处理及报告生成

3. Badcase 分析归因 & 平台落地 & 案例

  • 规则分类归因

  • Shap 模型可解释

  • 基于流量染色的实时 Debug

  • 日志复现

4. 算法效果优化分析 & 落地

5. 落地实践 & 展望

  • 平台支撑的业务方向

  • 落地情况 & 效果

  • 新技术的应用与探索


您认为,这样的技术在实践过程中有哪些痛点?

  • 在新的算法方向接入时,需要设计和不断调试评测指标、以及调整评测集采集规则,过程比较耗时,并且需要该方向的同学有较深的经验积累;需要考虑初步的解法

  • 针对一些实时特征依赖多的算法评测,需要结合开发特征的 mock 能力,否则实时指标波动大,对预期结果的影响较大;--根据目前探索,建议先从读场景切入,后续深入到写场景,使用 mock 方式


演讲亮点

1. 算法效果评估前置 vs 传统 AB 实验后验

  • 业界现状:强依赖空跑、灰度 AB 实验等后置验证链路质量和效果,问题发现滞后(至少需天级别或周级别的时间),业务有损

  • 本方案优势:通过线下前置对模型 & 算法工程链路做整体的效果评估,利用历史埋点数据做加工,筛选出带有标签的有针对行的评测集,对待测算法服务进行评估,前置评估出效果指标以及按照规则筛选出 badcase,同时提供漏斗式分层归因排查方式,帮助算法快速定位问题,进行优化

2. 自动归因体系 vs 人工排查

  • 业界现状:Badcase 依赖人工标注、单点的分析排查工具,耗时长且依赖经验

  • 本方案创新:三层归因漏斗:日志规则→ Shap 解释→实时 Debug(或日志复现等方式),实现 70% 以上问题的自动归因;先根据规则做问题分类


针对模型效果类问题,使用 shap 可解释工具,量化特征贡献度(如“商户位置”特征在超时预测中权重),辅助算法快速调优评估出特征重要度;针对算法策略问题,使用实时 debug 等方式,定位策略代码问题。同时在分析基础上,给出算法优化方向建议。


听众收益

  • 从质量和稳定性的方向上,了解前置的算法效果评测的方法论及整体的解决方案:过往算法效果更多依托线上的 AB 实验等方式进行验证,不仅回收效果时间长还可能对线上业务造成影响。本方案介绍了在线下如何更前置的对算法模型进行评测

  • 了解先进的 Badcase 归因技术及实践应用:讲解算法 Badcase 自动分类归因机制,涵盖基于日志的诊断、Shap 模型解释下的特征影响分析、以及实时 Debug 功能支持下的问题快速定位方法。这部分内容不但帮助算法线下调优,针对线上问题也可以进行快速诊断,提升解决问题能力和迭代效率

  • 了解在算法效果评测数据分析基础上,寻找算法优化方向的方法以及实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。


为确保大会顺利举行,现诚邀大二以上学生加入志愿者服务,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-26 16:184164

评论

发布
暂无评论

硅谷来信:快速行动,Facebook、Quora等成功的“神器”!

博文视点Broadview

WindTerm:新一代开源免费的终端工具,GitHub星标6.6k+,太酷了!

沉默王二

GitHub 终端工具

【7.29-8.5】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

五大理由告诉你为什么开发人员选择代码质量静态分析工具Klocwork来实现软件安全

龙智—DevSecOps解决方案

静态代码分析 代码静态分析 SAST工具 SAST

关注微信公众号,自动登陆网站

源字节1号

微信小程序

一次多表关联顺序的慢查询——TiDB 关联特性

TiDB 社区干货传送门

性能调优

COSCon'22城市/学校/机构出品人征集令

开源社

#开源 COSCon'22

版本控制篇 | 龙智邀您共赴GOPS全球运维大会,探索大规模、敏捷、高质量、开放式的软件研发与运营之路

龙智—DevSecOps解决方案

运维 DevSecOps GOPS大会

不是吧?还有人不会定位线上MySQL慢查询问题?

Java永远的神

Java MySQL 数据库 程序员 面试

自从用了 Kiali 以后才知道,配置 Istio 的 流量管理 是如此容易

万猫学社

云原生 istio envoy kiali

2022年6月互联网医疗领域月度观察

易观分析

医疗 市场

sync-diff-inspector 使用实践

TiDB 社区干货传送门

6.x 实践

手摸手带你 在 Windows 系统中安装 Istio

万猫学社

云原生 istio windows

内存问题难定位,那是因为你没用ASAN

华为云开发者联盟

云计算 开发 内存

centOS7.3 安装启用 iptables 记录

JavaPub

Linux centos7 iptables

后台权限系统的设计以及主流的五种权限模型详解

Java全栈架构师

Java 程序员 架构 面试 后端

我和TiDB的故事 | 遇上你是我的缘

TiDB 社区干货传送门

人物访谈 社区活动

Python开启虚拟环境

技术小生

8月月更 Python虚拟环境

Apache APISIX Ingress v1.5-rc1 发布

API7.ai 技术团队

APISIX kubenetes Ingress Controller

没开发人员,接到开发物联网系统的活儿,干不干?

AIRIOT

低代码 物联网 低代码,项目开发

2022 CCF国际AIOps挑战赛决赛暨AIOps研讨会报名已开启

BizSeer必示科技

人工智能 阿里云 华为云 信通院

开源一夏 | Java格式化日期 微秒

六月的雨在InfoQ

开源 8月月更

文盘Rust -- 配置文件解析

TiDB 社区干货传送门

开发语言

我和 TiDB 的故事 | 横看成岭侧成峰

TiDB 社区干货传送门

人物访谈

有多一只“手”的机器狗出没?就在昇腾AI开发者创享日·南京站

科技热闻

官方发布·2022南京智博会定于10月份在新庄国展召开

AIOTE智博会

莅临GOPS大会龙智展位,获取Forrester最新报告:《Forrester Wave™:2021年第四季度企业服务管理报告》

龙智—DevSecOps解决方案

ITSM Forrester Wave Forrester

我和 TiDB 的故事 | 学tidb半年,社区治好了我的精神内耗

TiDB 社区干货传送门

人物访谈 社区活动

数据治理体系演进简介

网易数帆

大数据 数据治理 元数据 数据标准

多业务模式下的交易链路探索与实践

转转技术团队

中台 状态机 FSM

SonarQube即将亮相第十八届GOPS全球运维大会

龙智—DevSecOps解决方案

代码安全 GOPS大会 运维、 代码质量检测工具

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章