强化学习 AI 系统的设计实现及未来发展｜AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会



 写点什么



大小：847.70K时长：04:49

6 月 27 日-6 月 28 日，AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践，邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家，深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。

阿里巴巴算法专家曹宇已确认出席并发表题为《强化学习 AI 系统的设计实现及未来发展》的主题分享。强化学习作为推动大语言模型进一步提升智能程度的手段，一直是大语言模型训练环节中最核心且复杂的环节。其中的复杂度不仅仅体现在其算法方面，也体现在其系统的整体要求上，本次分享从传统的 RLHF 系统开始，结合算法实践展示出 RL 系统的现状及发展脉络。通过具体的实践，与从业者共同探讨未来超大规模 RL 的发展方向，分享内容既包括理论基础，也包含业界实践，最后开源生态及社区共建也会涉及。

曹宇是阿里巴巴算法专家，主要从事大模型相关的算法研究及训练工作，对于强化学习在大模型中的应用有多年研究及实际工作经验。参与过阿里巴巴多个大模型的人类反馈强化学习，推理模型的算法设计及实际训练，了解超大规模强化学习系统设计，对于大规模大语言模型的算法及系统协同设计有一定积累。他在本次会议的详细演讲内容如下：

演讲提纲
1. RLHF 系统：从理论到工程化的起点
理论基础
RLHF 核心框架：人类反馈如何与强化学习结合（奖励建模、策略优化）
关键公式解析：KL 散度约束、奖励函数设计、策略梯度更新
传统系统架构
数据闭环：偏好数据收集→奖励模型训练→策略微调
工程痛点：数据标注成本高、训练稳定性差、系统耦合性强
发展脉络
早期实践：OpenAI 的 InstructGPT DPO
典型挑战：反馈稀疏性、奖励模型过拟合、策略灾难性遗忘
2. 算法突破与实践：从 PPO 到更优解
核心算法挑战
探索 - 利用权衡：如何在生成多样性（Exploration）与策略收敛（Exploitation）间平衡
稀疏奖励优化：长文本生成中的延迟奖励问题（如对话连贯性）
对抗性训练：如何避免模型“欺骗”奖励模型（Reward Hacking）
实践案例
PPO 改进：Clipped Objective、自适应 KL 惩罚项设计
课程学习：分阶段训练（从短文本到长文本生成）
混合监督：RL 与 SFT（监督微调）的动态权重调整
3. 超大规模 RL 系统的工程革命
系统架构升级
分布式训练框架：SPMD MPMD
混合并行策略：数据并行（偏好数据分片）+ 模型并行（万亿级参数切分）
内存优化：梯度检查点、Off-policy 经验回放池设计
阿里巴巴、字节等的业界实践
4. 未来方向：算法、系统与理论的融合
算法前沿
多模态反馈融合：文本、人类评分、物理世界信号联合优化
离线强化学习（Offline RL）：利用历史数据降低交互成本
自对齐（Self-Alignment）：模型自我迭代生成高质量反馈
系统规模化
动态资源调度：按训练阶段弹性分配算力（如奖励模型 vs. 策略模型）
理论开放问题
收敛性证明：超大规模 RL 训练的数学边界
泛化能力：从训练任务到开放域场景的迁移机制
5. 开源生态与社区共建
开源项目全景
openrlhf verl areal
6. 结语
从 RLHF 到超大规模 RL 系统，技术演进需算法创新、工程极致与生态协作三者共振。未来的智能突破，或许始于今日的开源开放与跨领域共创。

您认为，这样的技术在实践过程中有哪些痛点？
成本高

您的演讲有哪些前沿亮点？
算法融合系统

除此之外，本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

大会开幕在即，了解更多报名和详情信息可扫码或联系票务经理 13269078023 咨询。

发布

暂无评论

创作场景

强化学习 AI 系统的设计实现及未来发展｜AICon 北京

评论

告诉你如何同时拿到腾讯两个部门的offer？

SpringBoot系列(四)：SpringBoot特性_外部化配置(properties文件配置)

troubleshoot之:分析OutOfMemoryError异常

如何理解Python中的可迭代对象、迭代器和生成器

队列高级应用之设计一个高性能线程池

推荐一个替代印象笔记，onenote的神奇笔记！

简述Python中变量作用域的规则

浅谈技术管理者的角色认知与自我管理

一口气搞懂「文件系统」，就靠这 20 张图了

面试官：说下对cookie,session,Token的理解

憋再@官方了，头像加国旗，10行代码给你安排！

我们未曾见过的世界，大到无法想象

敏捷软件工程实践书籍

Rust竟然没有异常处理？

你可能不知道的iPython使用技巧

IT人的身体健康

图解JavaScript——代码实现（new、Object.create()、Object.assign()、flat()等十四种代码原理实现不香吗？）

大厂需要你的简历有这些内容！

HashMap、LinkedHashMap 学习笔记

翻译: Effective Go (5)

架构优化与业务迭代，你会怎么选？

架构师训练营 - 第 7 周学习总结

第10周总结+作业

二叉查找树-增删查和针对重复数据的 Java 实现

神经网络激活函数为什么要使用非线性函数？

非科班面试阿里，拼多多，银行都问了些啥？

重点发布！河北行动计划发布！聚焦7大重点任务发展大数据产业

如何做好技术选型

简谈Python3中的闭包

简谈Python3关键字nonlocal使用场景

领域驱动设计(DDD)实践之路(二)：事件驱动与CQRS

创作场景

强化学习 AI 系统的设计实现及未来发展｜AICon 北京

评论

推荐阅读

电子书

大厂实战PPT下载