京东零售大模型推理优化实践｜AICon北京

6 月 27 日-6 月 28 日，AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践，邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家，深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。

京东零售 AI 架构师杨培军已确认出席并发表题为《京东零售大模型推理优化实践》的主题分享。随着 DeepSeek 的爆火，其卓越的性能和成本引起了科技界的广泛关注，同时经过一两年的技术发展，LLM 推理加速与部署进入深水区。LLM 模型在京东零售内部有大量面向 C 端用户、B 端商家和广告主系统等的落地应用，业务场景提出了较高的 SLO 要求和成本压力，如何兼顾高吞吐与低时延是迫切要解决的问题。本次演讲将展开介绍这其中面临的技术挑战和核心技术要点，分享可落地的优化实践经验。

杨培军目前担任京东零售 AI 域架构师，长期从事深度学习和搜推广架构相关方向，擅长深度学习平台、CTR 稀疏和 LLM/LVM 稠密推理加速等领域，曾就职于阿里妈妈和 Bigo 负责机器学习相关平台的建设。他在本次会议的详细演讲内容如下：

演讲提纲
1. 京东零售大模型应用场景
2. 大模型推理服务落地面临的技术挑战
3. 推理服务核心优化技术
技术架构与核心功能
请求/实例全局调度
全异步化运行与多层流水线
算子高效执行与显存管理
4. 未来优化方向展望
您认为，这样的技术在实践过程中有哪些痛点？
要求开发者对 CPU/GPU/NPU 高性能编程，以及 LLM/LVM 模型有深刻理解和技术掌握。
您的演讲有哪些前沿亮点？
LLM 推理仍面临较大的成本压力，结合用户体验 SLO 要求，如何兼顾高吞吐与低时延目前前沿且迫切要解决的技术难点。
听众收益
了解 LLM 推理在工业界落地的前沿进展、业务落地技术挑战，以及技术解决方案。

除此之外，本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

创作场景

京东零售大模型推理优化实践｜AICon 北京