2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

强化学习 AI 系统的设计实现及未来发展|AICon 北京

  • 2025-06-16
    北京
  • 本文字数:1523 字

    阅读完需:约 5 分钟

大小:847.70K时长:04:49
强化学习 AI 系统的设计实现及未来发展|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


阿里巴巴算法专家曹宇已确认出席并发表题为《强化学习 AI 系统的设计实现及未来发展》的主题分享。强化学习作为推动大语言模型进一步提升智能程度的手段,一直是大语言模型训练环节中最核心且复杂的环节。其中的复杂度不仅仅体现在其算法方面,也体现在其系统的整体要求上,本次分享从传统的 RLHF 系统开始,结合算法实践展示出 RL 系统的现状及发展脉络。通过具体的实践,与从业者共同探讨未来超大规模 RL 的发展方向,分享内容既包括理论基础,也包含业界实践,最后开源生态及社区共建也会涉及。



曹宇是阿里巴巴算法专家,主要从事大模型相关的算法研究及训练工作,对于强化学习在大模型中的应用有多年研究及实际工作经验。参与过阿里巴巴多个大模型的人类反馈强化学习,推理模型的算法设计及实际训练,了解超大规模强化学习系统设计,对于大规模大语言模型的算法及系统协同设计有一定积累。他在本次会议的详细演讲内容如下:


演讲提纲

1. RLHF 系统:从理论到工程化的起点

  • 理论基础

  • RLHF 核心框架:人类反馈如何与强化学习结合(奖励建模、策略优化)

  • 关键公式解析:KL 散度约束、奖励函数设计、策略梯度更新

  • 传统系统架构

  • 数据闭环:偏好数据收集→奖励模型训练→策略微调

  • 工程痛点:数据标注成本高、训练稳定性差、系统耦合性强

  • 发展脉络

  • 早期实践:OpenAI 的 InstructGPT DPO

  • 典型挑战:反馈稀疏性、奖励模型过拟合、策略灾难性遗忘

2. 算法突破与实践:从 PPO 到更优解

  • 核心算法挑战

  • 探索 - 利用权衡:如何在生成多样性(Exploration)与策略收敛(Exploitation)间平衡

  • 稀疏奖励优化:长文本生成中的延迟奖励问题(如对话连贯性)

  • 对抗性训练:如何避免模型“欺骗”奖励模型(Reward Hacking)

  • 实践案例

  • PPO 改进:Clipped Objective、自适应 KL 惩罚项设计

  • 课程学习:分阶段训练(从短文本到长文本生成)

  • 混合监督:RL 与 SFT(监督微调)的动态权重调整

3. 超大规模 RL 系统的工程革命

  • 系统架构升级

  • 分布式训练框架:SPMD MPMD

  • 混合并行策略:数据并行(偏好数据分片)+ 模型并行(万亿级参数切分)

  • 内存优化:梯度检查点、Off-policy 经验回放池设计

  • 阿里巴巴、字节等的业界实践

4. 未来方向:算法、系统与理论的融合

  • 算法前沿

  • 多模态反馈融合:文本、人类评分、物理世界信号联合优化

  • 离线强化学习(Offline RL):利用历史数据降低交互成本

  • 自对齐(Self-Alignment):模型自我迭代生成高质量反馈

  • 系统规模化

  • 动态资源调度:按训练阶段弹性分配算力(如奖励模型 vs. 策略模型)

  • 理论开放问题

  • 收敛性证明:超大规模 RL 训练的数学边界

  • 泛化能力:从训练任务到开放域场景的迁移机制

5. 开源生态与社区共建

  • 开源项目全景

  • openrlhf verl areal

6. 结语

从 RLHF 到超大规模 RL 系统,技术演进需算法创新、工程极致与生态协作三者共振。未来的智能突破,或许始于今日的开源开放与跨领域共创。


您认为,这样的技术在实践过程中有哪些痛点?

成本高


您的演讲有哪些前沿亮点?

算法融合系统


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


大会开幕在即,了解更多报名和详情信息可扫码或联系票务经理 13269078023 咨询。



2025-06-16 10:0111

评论

发布
暂无评论

pip 配置路径要死记硬背?

风起帆扬了

Python Linux windows pip

Java并发编程基础--volatile

Java收录阁

volatile 线程

面试考试可用,十大排序算法

我不自豪谁志豪

学习 面试 算法

一次线上服务高 CPU 占用优化实践

挖坑的张师傅

性能优化 JVM cpu

利用goaccess分析nginx日志

Megatron7

nginx Linux

《零基础学Java》 FAQ 之 1-HelloWorld程序发生了ClassNotFound错误怎么解决

臧萌

Java Hello World !

取舍与可测试

孙苏勇

产品 产品设计 产品开发

理解 KL 散度的近似

Neil

人工智能 学习 Deep learning Machine Learning

字节流(InputStream/OutputStream)

Howe

Java 工作流

一次生产事故导致系统崩溃的原因排查过程

hellocj

七大查找算法,面试考试皆可用

我不自豪谁志豪

Java 面试 算法

maven私服搭建

kcnf

maven

Bash 的4种运行模式

Megatron7

bash Linux DevOps Shell

Kubernetes 将迎来首个 LTS 版本

倪朋飞

Kubernetes 容器 微服务

JAVA 程序展示时间与数据表保存的时间相差了 13 个小时!

我不自豪谁志豪

MySQL 学习 后端

乞丐版英制单位转换

escray

学习 CSD 认证实战营

聊聊我的程序员下属

程序员干货站

Python 人工智能 程序员 程序人生

Flutter引擎源码解读-内存管理篇

Geek_70xtik

flutter ios android 跨平台 dart

回"疫"录(8):我怀疑我病了

小天同学

疫情 心理 回忆录 现实纪录 纪实

如何在“写作平台”做一个读者

小天同学

思考 写作平台 建议 读者 阅读量

程序员大佬怎么跳槽?

程序员干货站

Python 人工智能 程序员 后端

低代码是什么鬼

Jeff Kit

低代码 全栈 开发

《零基础学Java》 FAQ 之 2-Java版本那点事儿

臧萌

Java

Graylog部署文档

勤而行之

Linux 开源 工具 日志分析

有节制的设计

胖鱼2号

微信 设计 無印良品

书籍推荐

蛤蟆先生

读书

1分钟系列-Elastic Stack(ELK)简介

Yezhiwei

Logstash Kibana ELK

我们有来生吗?

Janenesome

读书 碎碎念 猎奇

快捷考勤打卡设置

Megatron7

ios

python 之 「奶茶名字」的词云展示

小匚

Python python 爬虫 python教程

Redis学习笔记(字符串类型)

编程随想曲

redis

强化学习 AI 系统的设计实现及未来发展|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章