写点什么

前 OpenAI 研究员吴翼博士确认出席 QCon 上海,分享 AReaL 框架与 Agent 最佳实践

  • 2025-09-15
    北京
  • 本文字数:1269 字

    阅读完需:约 4 分钟

大小:676.31K时长:03:50
前 OpenAI 研究员吴翼博士确认出席 QCon 上海,分享AReaL 框架与 Agent 最佳实践

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


清华大学交叉信息院助理教授,博士生导师,前 OpenAI 研究员吴翼博士已确认出席并发表题为智能体时代的强化学习:AReaL 框架与 Agent 最佳实践的主题分享。随着大模型与智能体(Agent)技术的快速发展,强化学习(RL)正成为提升 AI 代理自主决策能力的关键引擎。然而,传统的 RL 训练方法面临计算成本高、数据需求大、系统复杂度高等挑战,限制了 Agent 的规模化落地。本次演讲将重点介绍针对 Agent 模型的强化学习训练系统 AReaL 及其在 Agent 场景下的最佳实践。通过真实数据和可复现的代码,展示 AReaL 如何帮助开发者和企业高效构建智能体系统,并推动 AI Agent 从实验室走向产业应用。



吴翼博士,清华大学交叉信息院助理教授,博士生导师,前 OpenAI 研究员。博士毕业于加州大学伯克利分校,研究方向为强化学习。Google Scholar 引用超过 13000 次,曾获 NIPS 2016 best paper award,ICRA best demo award finalist,并获得 2025 年 WAIC 云帆奖。他在本次会议的详细演讲内容如下:


演讲大纲

1. Agent 时代的强化学习新挑战

  • 传统 RL 训练的瓶颈

    数据需求:高质量人类反馈(RLHF)的获取成本

    计算效率:长序列任务(10 K+ tokens)的显存与吞吐问题

    系统复杂度:多模块(生成、奖励、策略优化)协同训练的工程难题

  • AReaL 的破局思路

    异步强化学习训练:2.77x 强化学习训练提升

    SOTA 推理模型:通过强化学习在多个任务轻松实现 SOTA

    全栈开源简单易用:代码、数据、模型、脚本的完整可复现性,轻量级版本轻松入门强化学习

2. AReaL 在 Agent 场景的核心技术

3. Agent 最佳实践案例

4. 社区生态与未来计划


演讲亮点

  • 面向 Agent 的强化学习技术突破

  • 独家开源实践

  • 前沿 Agent 场景落地


听众收益

  • 获取降本增效的 RL 落地路径

  • 解锁 AI 与业务场景的融合范式

  • 了解 AReaL 未来支持多模态 Agent、异步训练的路线图,提前布局技术生态


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。


2025-09-15 13:002640

评论

发布
暂无评论

无法复现的“慢”SQL《死磕MySQL系列 八》

咔咔

MySQL 慢SQL

打开order by的大门,一探究竟《死磕MySQL系列 十二》

咔咔

order by MySQL高级

MySQL性能测试之insert&delete【FunTester框架】

FunTester

MySQL 性能测试 测试框架 FunTester delete

大湾区的“科创土壤学”

脑极体

Spring扩展之 深入分析 Aware 接口

chenssy

死磕 Java 死磕 Spring

库存管理系统到底有什么作用?

低代码小观

CRM 企业管理系统 ERP 库存 CRM系统

Spring 扩展之深入分析 PropertyPlaceholderConfigurer

chenssy

死磕 Java 死磕 Spring

和12岁小同志搞创客开发:手撕代码,做一款密室自动门

不脱发的程序猿

少儿编程 传感器 智能硬件 创客开发 Arduino

Android C++系列:Linux网络(一)网络模型

轻口味

android 28天写作 12月日更

华为云联合HarmonyOS重磅发布智联生活行业加速器

华为云开发者联盟

华为云 智联生活

浅谈MySQL中的游标

麦洛

MySQL 游标

为什么MySQL字符串不加引号索引失效?《死磕MySQL系列 十一》

咔咔

MySQL 索引失效

Spring 扩展之深入分析 PropertyOverrideConfigurer

chenssy

死磕 Java 死磕 Spring

Python Qt GUI设计:如何调整组件布局比例?(拓展篇—1)

不脱发的程序猿

Python PyQt GUI设计 上位机 调整组件布局比例

TypeScript 之 Class(上)

冴羽

JavaScript typescript 翻译 大前端

10 款你不知道的 Linux 环境下的替代工具!

JackTian

GitHub Linux 程序员 运维 命令行终端

在K8s里部署Eureka集群

xiaoboey

Kubernetes Spring Cloud Eureka Gateway 服务发现

Spring 扩展之深入分析 BeanFactoryPostProcessor

chenssy

死磕 Java 死磕 Spring

Spring 扩展之之 PropertyPlaceholderConfigurer 的应用

chenssy

死磕 Java 死磕 Spring

Spring 扩展之自定义类型转换器

chenssy

死磕 Java 死磕 Spring

作业1

施正威

手把手教你实现网页端社交应用中的@人功能:技术原理、代码示例等

JackJiang

即时通讯 IM web socket

年后跑路第一战,从Java泛型学起!

麦洛

Java Java泛型

低代码实现探索(七)赋能产品架构如何做定制化

零道云-混合式低代码平台

MySQL统计总数就用count(*),别花里胡哨的《死磕MySQL系列 十》

咔咔

MySQL conut

Spring 扩展之深入分析 Bean 的类型转换体系

chenssy

死磕 Java 死磕 Spring

说说个人影响力

张老蔫

28天写作

字符串可以这样加索引,你知吗?《死磕MySQL系列 七》

咔咔

MySQL 字符串 加索引

什么?还在用delete删除数据《死磕MySQL系列 九》

咔咔

MySQL delete

Spring 扩展之深入分析 BeanPostProcessor

chenssy

死磕 Java 死磕 Spring

Spring 扩展之深入分析 InitializingBean 和 init-method

chenssy

死磕 Java 死磕 Spring

前 OpenAI 研究员吴翼博士确认出席 QCon 上海,分享AReaL 框架与 Agent 最佳实践_AI&大模型_QCon全球软件开发大会_InfoQ精选文章