2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon 北京

  • 2025-03-26
    北京
  • 本文字数:2000 字

    阅读完需:约 7 分钟

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


饿了么资深技术专家李佳慧已确认出席并发表题为《突破算法评测困境:饿了么即时配送算法评测与优化实践》的主题分享。即时配送业务需要在规定的时间和空间范围内,调度千万量级的订单和百万量级的骑手进行匹配,过程中应用了大量的智能算法。由于算法的可解释性弱、线下评测难度大等问题,饿了么在算法评测领域进行了深入的探索和实践。核心聚焦在算法效果评测的方案生成和平台建设,涵盖评测集筛选、评测指标制定,算法服务结果采集、评测报告生成、分析和 badcase 归因定位,最终给出线下评测结论,同时在效果评测和 badcase 分析的基础上,进一步给出算法优化方向的建议,帮助算法团队在上线前把控算法的迭代效果,缩短迭代优化周期。目前,基于该评测理论开发的算法评测平台支持可定制化的评测和分析定位能力,覆盖了饿了么的商流、物流等多个算法方向,显著提升了算法迭代的效率和质量。本次演讲李佳慧将分享饿了么即时配送算法评测与优化过程中的痛点案例及解决之道。


李佳慧,饿了么资深技术专家。在 IBM 从事 Rational 软件管理相关产品 RQM 的开发工作以及在 vmware 从事虚拟化产品的质量保障工作;2016 年加入阿里后,在阿里妈妈从事广告搜索引擎质量保障;2020 年开始在饿了么物流团队负责履约等核心链路的质量保障工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 算法迭代流程中常见问题和痛点

2. 算法效果评测方案 & 平台落地 & 案例

  • 算法评测指标设计

  • 筛选和生成自带标签的评测集

  • 算法服务数据采集

  • 评测结果处理及报告生成

3. Badcase 分析归因 & 平台落地 & 案例

  • 规则分类归因

  • Shap 模型可解释

  • 基于流量染色的实时 Debug

  • 日志复现

4. 算法效果优化分析 & 落地

5. 落地实践 & 展望

  • 平台支撑的业务方向

  • 落地情况 & 效果

  • 新技术的应用与探索


您认为,这样的技术在实践过程中有哪些痛点?

  • 在新的算法方向接入时,需要设计和不断调试评测指标、以及调整评测集采集规则,过程比较耗时,并且需要该方向的同学有较深的经验积累;需要考虑初步的解法

  • 针对一些实时特征依赖多的算法评测,需要结合开发特征的 mock 能力,否则实时指标波动大,对预期结果的影响较大;--根据目前探索,建议先从读场景切入,后续深入到写场景,使用 mock 方式


演讲亮点

1. 算法效果评估前置 vs 传统 AB 实验后验

  • 业界现状:强依赖空跑、灰度 AB 实验等后置验证链路质量和效果,问题发现滞后(至少需天级别或周级别的时间),业务有损

  • 本方案优势:通过线下前置对模型 & 算法工程链路做整体的效果评估,利用历史埋点数据做加工,筛选出带有标签的有针对行的评测集,对待测算法服务进行评估,前置评估出效果指标以及按照规则筛选出 badcase,同时提供漏斗式分层归因排查方式,帮助算法快速定位问题,进行优化

2. 自动归因体系 vs 人工排查

  • 业界现状:Badcase 依赖人工标注、单点的分析排查工具,耗时长且依赖经验

  • 本方案创新:三层归因漏斗:日志规则→ Shap 解释→实时 Debug(或日志复现等方式),实现 70% 以上问题的自动归因;先根据规则做问题分类


针对模型效果类问题,使用 shap 可解释工具,量化特征贡献度(如“商户位置”特征在超时预测中权重),辅助算法快速调优评估出特征重要度;针对算法策略问题,使用实时 debug 等方式,定位策略代码问题。同时在分析基础上,给出算法优化方向建议。


听众收益

  • 从质量和稳定性的方向上,了解前置的算法效果评测的方法论及整体的解决方案:过往算法效果更多依托线上的 AB 实验等方式进行验证,不仅回收效果时间长还可能对线上业务造成影响。本方案介绍了在线下如何更前置的对算法模型进行评测

  • 了解先进的 Badcase 归因技术及实践应用:讲解算法 Badcase 自动分类归因机制,涵盖基于日志的诊断、Shap 模型解释下的特征影响分析、以及实时 Debug 功能支持下的问题快速定位方法。这部分内容不但帮助算法线下调优,针对线上问题也可以进行快速诊断,提升解决问题能力和迭代效率

  • 了解在算法效果评测数据分析基础上,寻找算法优化方向的方法以及实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。


为确保大会顺利举行,现诚邀大二以上学生加入志愿者服务,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-26 16:183976

评论

发布
暂无评论

互联网公司研发效能/工程效率团队组织架构选择

laofo

互联网 DevOps 研发效能 持续交付 快手

【Python技能树共建】验证码实操2案例

梦想橡皮擦

6月月更

市值严重低估,现金15亿,百世走的路对吗?

科技新知

一文掌握软件安全必备技术 SAST

SEAL安全

网络安全 软件安全 SAST工具 SAST

洞见科技当选中国信通院隐私计算联盟「副理事长+政务应用工作组组长」单位

洞见科技

隐私计算

如何在 Django 中创建应用程序?

海拥(haiyong.site)

django 6月月更

运营商动态路由的神器 :IS-IS 协议

wljslmz

6月月更 路由协议 IS-IS

JavaScript期约Promise

大熊G

JavaScript 前端 6月月更

Vue-10-class的动态绑定

Python研究所

6月月更

Jetty 运行的时候出现 503 异常的原因

HoneyMoose

HarmonyOS应用/服务开发流程详解

坚果

6月月更

实战 | 【男保姆式】教你打开第一个微信小程序

写程序的小王叔叔

微信开发 小程序开发 6月月更

开发增效利器—IDEA辅助插件推荐

中原银行

开发 IDEA 插件 中原银行

还不知道npm私服?一篇教会你搭建私服并发布vue3组件库到nexus

Jianmu

ci 前端 npm Vue3 私服

谈谈 JDK 和 SAPMachine 的关系

汪子熙

Java jdk jre SAP 6月月更

影响软件公司开发价格的因素有很多,你知道吗?

开源直播系统源码

软件开发流程 直播系统 app源码 直播源码 定制软件开发

数字化转型之数字资产知识库(springboot+es+vue+neo4j)

金陵老街

全文检索 知识图谱 Vue 3 spring-boot

WebStorm注册码_WebStorm2022年激活永久实测有效

Geek_75f9e9

webstorm

Git远程操作详解

乌龟哥哥

6月月更

滴灌通-服务中小企业的金融创新(36/100)

hackstoic

创业 商业模式

InfoQ 极客传媒 15 周年庆征文|你真的了解RPC和REST吗?

No Silver Bullet

Rest RPC框架 构架 6月月更 InfoQ极客传媒15周年庆

spring4.1.8扩展实战之四:感知spring容器变化(SmartLifecycle接口)

程序员欣宸

Java spring Spring Framework 6月月更

企业知识管理系统应具备的功能

小炮

【直播回顾】战码先锋第五期:深入理解OpenHarmony系统启动,轻松踏上设备软件开发之旅

OpenHarmony开发者

Open Harmony

《知道做到》:如何从知道到做到?

郭明

远程办公带来的挑战和变化 | 社区征文

编程攻略

初夏征文

Java项目集成activity工作流,快速开发业务审批单据(低代码,敏捷)

金陵老街

敏捷 springboot Activity Vue 3 BPMN

如何制定业务的故障分级标准?

华仔

架构实战营 故障定级 故障分级

NodeJS 操作cookie 🎀

德育处主任

node.js Node 6月月更

C#入门系列(十五) -- 枚举

陈言必行

C# 六月月供

Linux开发_动态静态库创建与Makefile规则

DS小龙哥

6月月更

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章