写点什么

强化学习 AI 系统的设计实现及未来发展|AICon 北京

  • 2025-06-16
    北京
  • 本文字数:1523 字

    阅读完需:约 5 分钟

大小:847.70K时长:04:49
强化学习 AI 系统的设计实现及未来发展|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


阿里巴巴算法专家曹宇已确认出席并发表题为《强化学习 AI 系统的设计实现及未来发展》的主题分享。强化学习作为推动大语言模型进一步提升智能程度的手段,一直是大语言模型训练环节中最核心且复杂的环节。其中的复杂度不仅仅体现在其算法方面,也体现在其系统的整体要求上,本次分享从传统的 RLHF 系统开始,结合算法实践展示出 RL 系统的现状及发展脉络。通过具体的实践,与从业者共同探讨未来超大规模 RL 的发展方向,分享内容既包括理论基础,也包含业界实践,最后开源生态及社区共建也会涉及。



曹宇是阿里巴巴算法专家,主要从事大模型相关的算法研究及训练工作,对于强化学习在大模型中的应用有多年研究及实际工作经验。参与过阿里巴巴多个大模型的人类反馈强化学习,推理模型的算法设计及实际训练,了解超大规模强化学习系统设计,对于大规模大语言模型的算法及系统协同设计有一定积累。他在本次会议的详细演讲内容如下:


演讲提纲

1. RLHF 系统:从理论到工程化的起点

  • 理论基础

  • RLHF 核心框架:人类反馈如何与强化学习结合(奖励建模、策略优化)

  • 关键公式解析:KL 散度约束、奖励函数设计、策略梯度更新

  • 传统系统架构

  • 数据闭环:偏好数据收集→奖励模型训练→策略微调

  • 工程痛点:数据标注成本高、训练稳定性差、系统耦合性强

  • 发展脉络

  • 早期实践:OpenAI 的 InstructGPT DPO

  • 典型挑战:反馈稀疏性、奖励模型过拟合、策略灾难性遗忘

2. 算法突破与实践:从 PPO 到更优解

  • 核心算法挑战

  • 探索 - 利用权衡:如何在生成多样性(Exploration)与策略收敛(Exploitation)间平衡

  • 稀疏奖励优化:长文本生成中的延迟奖励问题(如对话连贯性)

  • 对抗性训练:如何避免模型“欺骗”奖励模型(Reward Hacking)

  • 实践案例

  • PPO 改进:Clipped Objective、自适应 KL 惩罚项设计

  • 课程学习:分阶段训练(从短文本到长文本生成)

  • 混合监督:RL 与 SFT(监督微调)的动态权重调整

3. 超大规模 RL 系统的工程革命

  • 系统架构升级

  • 分布式训练框架:SPMD MPMD

  • 混合并行策略:数据并行(偏好数据分片)+ 模型并行(万亿级参数切分)

  • 内存优化:梯度检查点、Off-policy 经验回放池设计

  • 阿里巴巴、字节等的业界实践

4. 未来方向:算法、系统与理论的融合

  • 算法前沿

  • 多模态反馈融合:文本、人类评分、物理世界信号联合优化

  • 离线强化学习(Offline RL):利用历史数据降低交互成本

  • 自对齐(Self-Alignment):模型自我迭代生成高质量反馈

  • 系统规模化

  • 动态资源调度:按训练阶段弹性分配算力(如奖励模型 vs. 策略模型)

  • 理论开放问题

  • 收敛性证明:超大规模 RL 训练的数学边界

  • 泛化能力:从训练任务到开放域场景的迁移机制

5. 开源生态与社区共建

  • 开源项目全景

  • openrlhf verl areal

6. 结语

从 RLHF 到超大规模 RL 系统,技术演进需算法创新、工程极致与生态协作三者共振。未来的智能突破,或许始于今日的开源开放与跨领域共创。


您认为,这样的技术在实践过程中有哪些痛点?

成本高


您的演讲有哪些前沿亮点?

算法融合系统


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


大会开幕在即,了解更多报名和详情信息可扫码或联系票务经理 13269078023 咨询。



2025-06-16 10:024057

评论

发布
暂无评论

解析淘宝商品评论API返回值中的用户信息与行为

技术冰糖葫芦

API Explorer API 接口 API 测试 API 策略 pinduoduo API

SOL项目开发代币DApp的基本要求、模式创建与海外宣发策略

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

ByteHouse案例实践:某平台如何基于OLAP大幅提升复杂查询效率?

字节跳动数据平台

数据库 大数据 云原生 Clickhouse 数仓

碳课堂|数字技术如何助力碳中和目标实现?

AMT企源

数字化转型 碳中和 碳达峰 碳管理

如何选择合适的代理IP?

IPIDEA全球HTTP

云解析的宕机切换是什么意思?有什么用?

防火墙后吃泡面

上海锐起科技桌面虚拟化方案与中国芯的不解情缘

上海锐起科技

1场Keynote,7场技术演讲 | Karmada云原生多云容器编排引擎闪耀亮相 KubeCon China 2024

华为云原生团队

云计算 容器 云原生 KubeCON

KubeCon China 2024 现场见!与华为云原生专家畅聊服务治理,一起Meet The Authors !

华为云原生团队

云计算 容器 云原生 KubeCON

AI制作PPT软件有哪些?这款中文版Gamma值得推荐!

职场工具箱

效率工具 职场 PPT 办公软件 AI生成PPT

跟着 iLogtail 学习高质量软件建设

阿里巴巴云原生

阿里云 云原生

【原创】【深入浅出系列】之代码可读性

京东科技开发者

加密市场的挑战与机遇:周期性变化与未来叙事趋势

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

独家揭秘丨GreatSQL 的MDL锁策略升级对执行的影响

GreatSQL

极客天成和ScaleFlux完成产品相互兼容认证

ScaleFlux

分布式存储 企业级SSD

沪港数据竞赛圆满落幕,启信宝独揽双重大奖

合合技术团队

科技 合合信息 启信宝

一直没找到合适的开源富文本?何不尝试下Fluent Editor,一个基于Quill 2.0的富文本编辑器,功能强大、开箱即用!

OpenTiny社区

前端 OpenTiny TinyVue 开源组件库

《黑神话》火到破纪录,老黄都要到游戏展秀一把:全景光追英伟达独享,同款技术还有20+游戏在路上

Openlab_cosmoplat

AI 游戏

数据库运维实操优质文章分享(含Oracle、MySQL等) | 2024年7月刊

墨天轮

MySQL 数据库 oracle sql postgresql

云手机在亚马逊店铺运营中能发挥什么作用

Ogcloud

云手机 海外云手机 云手机海外版 亚马逊运营 亚马逊云手机

一站式统一返回值封装、异常处理、异常错误码解决方案—最强的Sping Boot接口优雅响应处理器

京东科技开发者

QPS提升10倍的sql优化

京东科技开发者

亚马逊云科技服务之安全巡检及优化

伊克罗德信息科技

岳阳东宇第六家高端网咖开业,这位老板笃定14900K的原因是?

E科讯

华为云CodeArts API:API管理一体化平台 7月新特性介绍

API 华为云

MES系统在铜加工行业的应用

万界星空科技

mes 万界星空科技 铜业 制造业工厂 铜加工

强化学习 AI 系统的设计实现及未来发展|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章