写点什么

前 OpenAI 研究员吴翼博士确认出席 QCon 上海,分享 AReaL 框架与 Agent 最佳实践

  • 2025-09-15
    北京
  • 本文字数:1269 字

    阅读完需:约 4 分钟

大小:676.31K时长:03:50
前 OpenAI 研究员吴翼博士确认出席 QCon 上海,分享AReaL 框架与 Agent 最佳实践

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


清华大学交叉信息院助理教授,博士生导师,前 OpenAI 研究员吴翼博士已确认出席并发表题为智能体时代的强化学习:AReaL 框架与 Agent 最佳实践的主题分享。随着大模型与智能体(Agent)技术的快速发展,强化学习(RL)正成为提升 AI 代理自主决策能力的关键引擎。然而,传统的 RL 训练方法面临计算成本高、数据需求大、系统复杂度高等挑战,限制了 Agent 的规模化落地。本次演讲将重点介绍针对 Agent 模型的强化学习训练系统 AReaL 及其在 Agent 场景下的最佳实践。通过真实数据和可复现的代码,展示 AReaL 如何帮助开发者和企业高效构建智能体系统,并推动 AI Agent 从实验室走向产业应用。



吴翼博士,清华大学交叉信息院助理教授,博士生导师,前 OpenAI 研究员。博士毕业于加州大学伯克利分校,研究方向为强化学习。Google Scholar 引用超过 13000 次,曾获 NIPS 2016 best paper award,ICRA best demo award finalist,并获得 2025 年 WAIC 云帆奖。他在本次会议的详细演讲内容如下:


演讲大纲

1. Agent 时代的强化学习新挑战

  • 传统 RL 训练的瓶颈

    数据需求:高质量人类反馈(RLHF)的获取成本

    计算效率:长序列任务(10 K+ tokens)的显存与吞吐问题

    系统复杂度:多模块(生成、奖励、策略优化)协同训练的工程难题

  • AReaL 的破局思路

    异步强化学习训练:2.77x 强化学习训练提升

    SOTA 推理模型:通过强化学习在多个任务轻松实现 SOTA

    全栈开源简单易用:代码、数据、模型、脚本的完整可复现性,轻量级版本轻松入门强化学习

2. AReaL 在 Agent 场景的核心技术

3. Agent 最佳实践案例

4. 社区生态与未来计划


演讲亮点

  • 面向 Agent 的强化学习技术突破

  • 独家开源实践

  • 前沿 Agent 场景落地


听众收益

  • 获取降本增效的 RL 落地路径

  • 解锁 AI 与业务场景的融合范式

  • 了解 AReaL 未来支持多模态 Agent、异步训练的路线图,提前布局技术生态


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。


2025-09-15 13:002728

评论

发布
暂无评论

YashanDB数据库索引结构与优化技术全解

数据库砖家

在AI技术快速实现创意的时代,挖掘新需求成为关键突破——某知名电子书转有声书工具需求洞察

qife122

开源项目 AI语音合成

配电 低压电工经验总结(14)

万里无云万里天

工业 工厂运维

还在为月初月末崩溃?新一代财务自动化软件盘点

Techinsight

MIAOYUN | 每周AI新鲜事儿(08.22-08.29)

MIAOYUN

人工智能 AI 资讯 大模型 AI 图像生成

YashanDB数据库索引策略优化与性能提升

数据库砖家

Java诞生30周年:持续演进的技术生态与AI新方向

qife122

Java AI开发

YashanDB数据库索引机制与查询性能优化

数据库砖家

YashanDB数据库索引设计与维护最佳实践

数据库砖家

YashanDB数据库索引优化技术详解

数据库砖家

基于YOLO的钢筋目标检测系统 | 钢筋计数识别与检测【完整源码+部署】

申公豹

人工智能

YashanDB数据库索引设计最佳实践指南

数据库砖家

YashanDB数据库提升数据访问速度的关键技术

数据库砖家

YashanDB数据库通过机器学习提升数据管理效率

数据库砖家

加州隐私保护局通过CCPA新规并开放DROP规则公众评议

qife122

CCPA 网络安全法规

华为云云原生团队 2026 届校招正式启动

华为云原生团队

云计算 容器 云原生

YashanDB数据库索引设计与性能优化

数据库砖家

无IT能玩转自动化吗?中小企业RPA落地省钱省力全攻略

Techinsight

CVE-2019-13382:SnagIt本地权限提升漏洞分析与利用

qife122

漏洞挖掘 符号链接

Go/C++ 指针比较

俞凡

c++ golang

让集成更安心,让连接更高效:鸿蒙生态伙伴SDK优选库双端赋能

HarmonyOS SDK

HarmonyOS NEXT HarmonyOS SDK应用服务

从试点到千级流程:RPA 选型必看的 5 大架构与信创避坑点!

Techinsight

2025 中小企业 RPA 落地省钱省力全攻略

Techinsight

YashanDB数据库索引设计技巧及实践指南

数据库砖家

YashanDB数据库索引设计实战,提高查询响应速度

数据库砖家

YashanDB数据库索引优化策略及效果评估

数据库砖家

YashanDB数据库提供的用户体验优化方向

数据库砖家

工业管理 项目管理经验总结(6)

万里无云万里天

项目管理 工业 工厂运维

YashanDB数据库索引碎片整理与维护技术

数据库砖家

RPA规模化崩盘?90%企业踩过的5大选型坑!

Techinsight

前 OpenAI 研究员吴翼博士确认出席 QCon 上海,分享AReaL 框架与 Agent 最佳实践_AI&大模型_QCon全球软件开发大会_InfoQ精选文章