写点什么

强化学习 AI 系统的设计实现及未来发展|AICon 北京

  • 2025-06-16
    北京
  • 本文字数:1523 字

    阅读完需:约 5 分钟

大小:847.70K时长:04:49
强化学习 AI 系统的设计实现及未来发展|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


阿里巴巴算法专家曹宇已确认出席并发表题为《强化学习 AI 系统的设计实现及未来发展》的主题分享。强化学习作为推动大语言模型进一步提升智能程度的手段,一直是大语言模型训练环节中最核心且复杂的环节。其中的复杂度不仅仅体现在其算法方面,也体现在其系统的整体要求上,本次分享从传统的 RLHF 系统开始,结合算法实践展示出 RL 系统的现状及发展脉络。通过具体的实践,与从业者共同探讨未来超大规模 RL 的发展方向,分享内容既包括理论基础,也包含业界实践,最后开源生态及社区共建也会涉及。



曹宇是阿里巴巴算法专家,主要从事大模型相关的算法研究及训练工作,对于强化学习在大模型中的应用有多年研究及实际工作经验。参与过阿里巴巴多个大模型的人类反馈强化学习,推理模型的算法设计及实际训练,了解超大规模强化学习系统设计,对于大规模大语言模型的算法及系统协同设计有一定积累。他在本次会议的详细演讲内容如下:


演讲提纲

1. RLHF 系统:从理论到工程化的起点

  • 理论基础

  • RLHF 核心框架:人类反馈如何与强化学习结合(奖励建模、策略优化)

  • 关键公式解析:KL 散度约束、奖励函数设计、策略梯度更新

  • 传统系统架构

  • 数据闭环:偏好数据收集→奖励模型训练→策略微调

  • 工程痛点:数据标注成本高、训练稳定性差、系统耦合性强

  • 发展脉络

  • 早期实践:OpenAI 的 InstructGPT DPO

  • 典型挑战:反馈稀疏性、奖励模型过拟合、策略灾难性遗忘

2. 算法突破与实践:从 PPO 到更优解

  • 核心算法挑战

  • 探索 - 利用权衡:如何在生成多样性(Exploration)与策略收敛(Exploitation)间平衡

  • 稀疏奖励优化:长文本生成中的延迟奖励问题(如对话连贯性)

  • 对抗性训练:如何避免模型“欺骗”奖励模型(Reward Hacking)

  • 实践案例

  • PPO 改进:Clipped Objective、自适应 KL 惩罚项设计

  • 课程学习:分阶段训练(从短文本到长文本生成)

  • 混合监督:RL 与 SFT(监督微调)的动态权重调整

3. 超大规模 RL 系统的工程革命

  • 系统架构升级

  • 分布式训练框架:SPMD MPMD

  • 混合并行策略:数据并行(偏好数据分片)+ 模型并行(万亿级参数切分)

  • 内存优化:梯度检查点、Off-policy 经验回放池设计

  • 阿里巴巴、字节等的业界实践

4. 未来方向:算法、系统与理论的融合

  • 算法前沿

  • 多模态反馈融合:文本、人类评分、物理世界信号联合优化

  • 离线强化学习(Offline RL):利用历史数据降低交互成本

  • 自对齐(Self-Alignment):模型自我迭代生成高质量反馈

  • 系统规模化

  • 动态资源调度:按训练阶段弹性分配算力(如奖励模型 vs. 策略模型)

  • 理论开放问题

  • 收敛性证明:超大规模 RL 训练的数学边界

  • 泛化能力:从训练任务到开放域场景的迁移机制

5. 开源生态与社区共建

  • 开源项目全景

  • openrlhf verl areal

6. 结语

从 RLHF 到超大规模 RL 系统,技术演进需算法创新、工程极致与生态协作三者共振。未来的智能突破,或许始于今日的开源开放与跨领域共创。


您认为,这样的技术在实践过程中有哪些痛点?

成本高


您的演讲有哪些前沿亮点?

算法融合系统


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


大会开幕在即,了解更多报名和详情信息可扫码或联系票务经理 13269078023 咨询。



2025-06-16 10:023686

评论

发布
暂无评论

告诉你如何同时拿到腾讯两个部门的offer?

我是程序员小贱

SpringBoot系列(四):SpringBoot特性_外部化配置(properties文件配置)

xcbeyond

Java 微服务 springboot

troubleshoot之:分析OutOfMemoryError异常

程序那些事

Java JVM 异常 JIT

如何理解Python中的可迭代对象、迭代器和生成器

wangkx

Python python升级

队列高级应用之设计一个高性能线程池

架构师修行之路

分布式 线程池 架构设计 架构师

推荐一个替代印象笔记,onenote的神奇笔记!

申屠鹏会

笔记

简述Python中变量作用域的规则

wangkx

Python python升级 Python基础

浅谈技术管理者的角色认知与自我管理

Geek_37rwst

团队管理 管理 自我管理 技术管理

一口气搞懂「文件系统」,就靠这 20 张图了

小林coding

操作系统 计算机基础 文件管理 文件存储 文件系统

面试官:说下对cookie,session,Token的理解

Java小咖秀

Java 面试

憋再@官方了,头像加国旗,10行代码给你安排!

wangkx

Python python升级

我们未曾见过的世界,大到无法想象

wangkx

ios 极客 apple 苹果 软件推荐

敏捷软件工程实践书籍

Bob Jiang

敏捷 敏捷书籍 工程实践

Rust竟然没有异常处理?

袁承兴

rust 异常 java异常处理

你可能不知道的iPython使用技巧

wangkx

Python

IT人的身体健康

隆隆

IT人健康

图解JavaScript——代码实现(new、Object.create()、Object.assign()、flat()等十四种代码原理实现不香吗?)

执鸢者

Java 大前端 代码原理

大厂需要你的简历有这些内容!

我是程序员小贱

HashMap、LinkedHashMap 学习笔记

Geek_vidmje

翻译: Effective Go (5)

申屠鹏会

翻译 Go 语言

架构优化与业务迭代,你会怎么选?

架构精进之路

软件开发

架构师训练营 - 第 7 周学习总结

红了哟

第10周总结+作业

林毋梦

二叉查找树-增删查和针对重复数据的 Java 实现

多选参数

数据结构 算法 二叉树 数据结构与算法

神经网络激活函数为什么要使用非线性函数?

wangkx

神经网络 激活函数

非科班面试阿里,拼多多,银行都问了些啥?

我是程序员小贱

重点发布!河北行动计划发布!聚焦7大重点任务发展大数据产业

CECBC

区块链技术 落地应用 政策

如何做好技术选型

xcbeyond

Java 架构 最佳实践 技术选型

简谈Python3中的闭包

wangkx

Python Python基础

简谈Python3关键字nonlocal使用场景

wangkx

Python Python基础

领域驱动设计(DDD)实践之路(二):事件驱动与CQRS

vivo互联网技术

DDD 架构设计 CQRS

强化学习 AI 系统的设计实现及未来发展|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章