硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

前 OpenAI 研究员吴翼博士确认出席 QCon 上海,分享 AReaL 框架与 Agent 最佳实践

  • 2025-09-15
    北京
  • 本文字数:1269 字

    阅读完需:约 4 分钟

大小:676.31K时长:03:50
前 OpenAI 研究员吴翼博士确认出席 QCon 上海,分享AReaL 框架与 Agent 最佳实践

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


清华大学交叉信息院助理教授,博士生导师,前 OpenAI 研究员吴翼博士已确认出席并发表题为智能体时代的强化学习:AReaL 框架与 Agent 最佳实践的主题分享。随着大模型与智能体(Agent)技术的快速发展,强化学习(RL)正成为提升 AI 代理自主决策能力的关键引擎。然而,传统的 RL 训练方法面临计算成本高、数据需求大、系统复杂度高等挑战,限制了 Agent 的规模化落地。本次演讲将重点介绍针对 Agent 模型的强化学习训练系统 AReaL 及其在 Agent 场景下的最佳实践。通过真实数据和可复现的代码,展示 AReaL 如何帮助开发者和企业高效构建智能体系统,并推动 AI Agent 从实验室走向产业应用。



吴翼博士,清华大学交叉信息院助理教授,博士生导师,前 OpenAI 研究员。博士毕业于加州大学伯克利分校,研究方向为强化学习。Google Scholar 引用超过 13000 次,曾获 NIPS 2016 best paper award,ICRA best demo award finalist,并获得 2025 年 WAIC 云帆奖。他在本次会议的详细演讲内容如下:


演讲大纲

1. Agent 时代的强化学习新挑战

  • 传统 RL 训练的瓶颈

    数据需求:高质量人类反馈(RLHF)的获取成本

    计算效率:长序列任务(10 K+ tokens)的显存与吞吐问题

    系统复杂度:多模块(生成、奖励、策略优化)协同训练的工程难题

  • AReaL 的破局思路

    异步强化学习训练:2.77x 强化学习训练提升

    SOTA 推理模型:通过强化学习在多个任务轻松实现 SOTA

    全栈开源简单易用:代码、数据、模型、脚本的完整可复现性,轻量级版本轻松入门强化学习

2. AReaL 在 Agent 场景的核心技术

3. Agent 最佳实践案例

4. 社区生态与未来计划


演讲亮点

  • 面向 Agent 的强化学习技术突破

  • 独家开源实践

  • 前沿 Agent 场景落地


听众收益

  • 获取降本增效的 RL 落地路径

  • 解锁 AI 与业务场景的融合范式

  • 了解 AReaL 未来支持多模态 Agent、异步训练的路线图,提前布局技术生态


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。


2025-09-15 13:002525

评论

发布
暂无评论

【文本检测与识别白皮书-3.2】第二节:场景文本识别方法

合合技术团队

人工智能 深度学习 文字识别 OCR 文本识别

Vue模板是怎样编译的

yyds2026

Vue

云计算基础:云计算运用越来越广泛,我们应该如何去学习云计算

Python-派大星

10月月更

长安链源码分析同步服务器1

京东云开发者|ElasticSearch降本增效常见的方法

京东科技开发者

elasticsearch ES 降本增效 数据压缩 存储计算分离

引擎上新|卡片焕新升级,信息高效呈现

Jianmu

DevOps 持续集成 CI/CD

线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题

明哥的IT随笔

hadoop hive DataX

5 why 分析法,一种用于归纳抽象出解决方案的好方法

程序员泥瓦匠

SAP | 子例程

暮春零贰

SAP 10月月更 子例程

Workflow,要不要了解一下

华为云开发者联盟

人工智能 华为云 企业号十月 PK 榜

webpack模块化的原理

Geek_02d948

webpack

webpack实战,手写loader和plugin

Geek_02d948

webpack

云安全系列2:访问安全和身份管理

HummerCloud

云计算 云安全 iam 身份和访问管理 10月月更

深入nodejs的event-loop

coder2028

node.js

【沙丘大会】九科信息研发中心自动化负责人郑文茂受邀分享央企数字员工实践案例

九科Ninetech

redux原理是什么

xiaofeng

React

Java:既然有了synchronized,为什么还要提供Lock

华为云开发者联盟

Java 开发 华为云 企业号十月 PK 榜

【1024程序员节专访】聚焦行业前沿,共话IT发展趋势

博睿数据

程序员 可观测性 智能运维 博睿数据 IT行业

原生拖拽太拉跨了,纯JS自己手写一个拖拽效果,纵享丝滑

茶无味的一天

CSS html HTML5, CSS3 拖拉拽 原生js

文读懂NodeJs知识体系和原理浅析

coder2028

node.js

从 wepy 到 uniapp 变形记

vivo互联网技术

wepy uni-app 前端 编译器

Docker进阶 dockerfile指令构建docker镜像

Python-派大星

10月月更

云小课|MRS基础原理之Oozie任务调度

华为云开发者联盟

大数据 华为云 企业号十月 PK 榜

Vue虚拟dom是如何被创建的

yyds2026

Vue

Vue组件是怎样挂载的

yyds2026

Vue

Webpack配置实战

Geek_02d948

webpack

彻底搞懂nodejs事件循环

coder2028

node.js

一文读透react精髓

xiaofeng

React

小样本学习在文心ERNIE3.0多分类任务应用--提示学习

汀丶人工智能

nlp 文本分类

漏洞评分高达9.8分!Text4Shell 会是下一个 Log4Shell吗?

SEAL安全

安全 log4j 漏洞分析 Log4j2 漏洞 软件供应链安全

SAP | 功能模块

暮春零贰

SAP 功能块 10月月更

前 OpenAI 研究员吴翼博士确认出席 QCon 上海,分享AReaL 框架与 Agent 最佳实践_AI&大模型_QCon全球软件开发大会_InfoQ精选文章