阶跃星辰副总裁俞刚确认出席AICon上海站，分享多模态生成与理解的架构演进

当前，以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么，世界模型的下一个突破在哪？Agent 从 Demo 到工程化还差什么？研发体系不重构，还能撑多久？

6 月 26 日-6 月 27 日，AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题，邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家，分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障，以及大模型推理优化、智算架构升级等关键命题。

阶跃星辰副总裁俞刚已确认出席 “世界模型与多模态智能突破” 专题，并发表题为《走向统一智能：多模态生成与理解的架构演进》的主题分享。随着以 Next-token prediction 为代表的大模型技术迅猛发展，其应用已从单一语言模型快速拓展至多模态领域。本次分享将以语言模型为切入点，系统介绍多模态场景下生成与理解技术的演进脉络，重点围绕语音、图像两大模态，探讨前沿多模态模型的架构设计思路，并展望未来核心研究方向。

俞刚，阶跃星辰副总裁，研究方向聚焦计算机视觉与人工智能领域，涵盖生成式 AI、目标检测、图像分割、人体关键点估计、人体动作识别及三维重建等方向。2014 年于南洋理工大学（NTU）获得博士学位，师从黄俊松教授（Prof. Junsong Yuan）。此前曾在腾讯担任研究总监四年，并在旷视科（Face++）工作五年。他在本次会议的详细演讲内容如下：

演讲提纲：
大语言模型（LLM）2023 年至今的发展变化
Step 3.5 flash 相关介绍
2. 文本与语音交互的融合及发展
Step-audio 2 & Step-audio 2.5 相关介绍
3. 文本+语音+视觉的多模态融合
Step-image 2 & Step-audio-editx 相关介绍
4. 生成一体化的难点与实现路径
5. 未来探索方向整理
听众收益：
了解多模态生成和理解的前沿进展

除此之外，本次大会还策划了端侧 AI、物理与数字空间智能化、世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构、AI 原生数据工程、AI 时代的个人提效与组织变革等 14 个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

8 折倒计时进入最后一周，现在报名立减 1160，查看更多详情可扫码或联系票务经理 13269078023 进行咨询。

创作场景

阶跃星辰副总裁俞刚确认出席 AICon 上海站，分享多模态生成与理解的架构演进