大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon 北京

  • 2025-03-26
    北京
  • 本文字数:2000 字

    阅读完需:约 7 分钟

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


饿了么资深技术专家李佳慧已确认出席并发表题为《突破算法评测困境:饿了么即时配送算法评测与优化实践》的主题分享。即时配送业务需要在规定的时间和空间范围内,调度千万量级的订单和百万量级的骑手进行匹配,过程中应用了大量的智能算法。由于算法的可解释性弱、线下评测难度大等问题,饿了么在算法评测领域进行了深入的探索和实践。核心聚焦在算法效果评测的方案生成和平台建设,涵盖评测集筛选、评测指标制定,算法服务结果采集、评测报告生成、分析和 badcase 归因定位,最终给出线下评测结论,同时在效果评测和 badcase 分析的基础上,进一步给出算法优化方向的建议,帮助算法团队在上线前把控算法的迭代效果,缩短迭代优化周期。目前,基于该评测理论开发的算法评测平台支持可定制化的评测和分析定位能力,覆盖了饿了么的商流、物流等多个算法方向,显著提升了算法迭代的效率和质量。本次演讲李佳慧将分享饿了么即时配送算法评测与优化过程中的痛点案例及解决之道。


李佳慧,饿了么资深技术专家。在 IBM 从事 Rational 软件管理相关产品 RQM 的开发工作以及在 vmware 从事虚拟化产品的质量保障工作;2016 年加入阿里后,在阿里妈妈从事广告搜索引擎质量保障;2020 年开始在饿了么物流团队负责履约等核心链路的质量保障工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 算法迭代流程中常见问题和痛点

2. 算法效果评测方案 & 平台落地 & 案例

  • 算法评测指标设计

  • 筛选和生成自带标签的评测集

  • 算法服务数据采集

  • 评测结果处理及报告生成

3. Badcase 分析归因 & 平台落地 & 案例

  • 规则分类归因

  • Shap 模型可解释

  • 基于流量染色的实时 Debug

  • 日志复现

4. 算法效果优化分析 & 落地

5. 落地实践 & 展望

  • 平台支撑的业务方向

  • 落地情况 & 效果

  • 新技术的应用与探索


您认为,这样的技术在实践过程中有哪些痛点?

  • 在新的算法方向接入时,需要设计和不断调试评测指标、以及调整评测集采集规则,过程比较耗时,并且需要该方向的同学有较深的经验积累;需要考虑初步的解法

  • 针对一些实时特征依赖多的算法评测,需要结合开发特征的 mock 能力,否则实时指标波动大,对预期结果的影响较大;--根据目前探索,建议先从读场景切入,后续深入到写场景,使用 mock 方式


演讲亮点

1. 算法效果评估前置 vs 传统 AB 实验后验

  • 业界现状:强依赖空跑、灰度 AB 实验等后置验证链路质量和效果,问题发现滞后(至少需天级别或周级别的时间),业务有损

  • 本方案优势:通过线下前置对模型 & 算法工程链路做整体的效果评估,利用历史埋点数据做加工,筛选出带有标签的有针对行的评测集,对待测算法服务进行评估,前置评估出效果指标以及按照规则筛选出 badcase,同时提供漏斗式分层归因排查方式,帮助算法快速定位问题,进行优化

2. 自动归因体系 vs 人工排查

  • 业界现状:Badcase 依赖人工标注、单点的分析排查工具,耗时长且依赖经验

  • 本方案创新:三层归因漏斗:日志规则→ Shap 解释→实时 Debug(或日志复现等方式),实现 70% 以上问题的自动归因;先根据规则做问题分类


针对模型效果类问题,使用 shap 可解释工具,量化特征贡献度(如“商户位置”特征在超时预测中权重),辅助算法快速调优评估出特征重要度;针对算法策略问题,使用实时 debug 等方式,定位策略代码问题。同时在分析基础上,给出算法优化方向建议。


听众收益

  • 从质量和稳定性的方向上,了解前置的算法效果评测的方法论及整体的解决方案:过往算法效果更多依托线上的 AB 实验等方式进行验证,不仅回收效果时间长还可能对线上业务造成影响。本方案介绍了在线下如何更前置的对算法模型进行评测

  • 了解先进的 Badcase 归因技术及实践应用:讲解算法 Badcase 自动分类归因机制,涵盖基于日志的诊断、Shap 模型解释下的特征影响分析、以及实时 Debug 功能支持下的问题快速定位方法。这部分内容不但帮助算法线下调优,针对线上问题也可以进行快速诊断,提升解决问题能力和迭代效率

  • 了解在算法效果评测数据分析基础上,寻找算法优化方向的方法以及实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。


为确保大会顺利举行,现诚邀大二以上学生加入志愿者服务,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-26 16:184044

评论

发布
暂无评论

实时数据仓库的发展、架构和趋势

网易数帆

数据仓库 实时计算 实时数仓 iceberg 批流一体

自己搭建一个语音聊天室

anyRTC开发者

ios android 音视频 WebRTC RTC

聪明人的训练(一)

Changing Lin

4月日更

模块1作业

Geek_2e7dd7

架构实战营

今天是个开心的日子

return

Python OpenCV 之图像乘除与像素的逻辑运算,图像处理取经之旅第 17 天

梦想橡皮擦

Python OpenCV 4月日更

Python基础之:Python中的类

程序那些事

Python Python3 程序那些事

2021年Android工作或更难找,原理+实战+视频+源码

欢喜学安卓

android 程序员 面试 移动开发

Flink中的无界数据流与有界数据流

大数据技术指南

flink 4月日更

Laravel 服务容器实例教程--深入理解控制反转(IoC)和依赖注入(DI)

一个大红包

4月日更

【LeetCode】直方图的水量Java题解

Albert

算法 LeetCode 4月日更

一文学完所有的Hive Sql(两万字最全详解)

五分钟学大数据

大数据 hive 4月日更

五种不同类型的领导模式

石云升

领导力 28天写作 职场经验 管理经验 4月日更

NAC公链主打应用而生的NA(Nirvana)公链有什么过人之处?

区块链第一资讯

根据码龄来爬取CSDN博客粉丝

空城机

Python 爬虫 python 爬虫 4月日更 粉丝数据

Python OpenCV 之图像的叠加,图像处理取经之旅第 16 天

梦想橡皮擦

Python OpenCV 4月日更

飞桨与龙芯完成兼容性认证

百度大脑

飞桨

百度智能云发布云智一体的AI开发全栈模式

百度大脑

百度智能云

2021年金三银四全新版互联网大厂面试题,分类80份PDF,累计4700页

Java 编程 程序员 架构 面试

uni-app对接金山文档在线预览服务

薛定喵君

2021年Android面经分享,赶紧收藏!

欢喜学安卓

android 程序员 面试 移动开发

【leetcode题目】2. 两数相加

程序员架构进阶

LeetCode 28天写作 算法解析 4月日更

ElasticSearch读写模型&数据复制模型

yhh

elasticsearch 数据复制模型

如何实现微信8.0爆炸和烟花表情特效

梅芳姑

Spark查询优化之谓词下推

小舰

4月日更

CMS前世今生

叫练

CMS JVM 垃圾收集

程序员面试指北:如何更高效的准备面试

邴越

Java 面试 求职 招聘

StarRocks致工程师们的一封信

StarRocks

大数据 程序员 数据分析 工程师 StarRocks

酷家乐 x StarRocks:家居SaaS独角兽如何实现数据分析全面升级,大幅降低平台成本

StarRocks

大数据 数据分析 presto 营销数字化 StarRocks

后端开发必须要懂的Redis,Redis的数据结构

Linux服务器开发

redis 分布式 后端 web服务器 Linux服务器开发

Hi Array!~~~你所经常遇见的TA!

Chalk

JavaScript 大前端 数组 array 4月日更

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章