写点什么

阶跃星辰副总裁俞刚确认出席 AICon 上海站,分享多模态生成与理解的架构演进

  • 2026-05-22
    北京
  • 本文字数:940 字

    阅读完需:约 3 分钟

当前,以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么,世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?研发体系不重构,还能撑多久?

6 月 26 日-6 月 27 日,AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题,邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家,分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障,以及大模型推理优化、智算架构升级等关键命题。

阶跃星辰副总裁俞刚已确认出席 “世界模型与多模态智能突破” 专题,并发表题为《走向统一智能:多模态生成与理解的架构演进》的主题分享。随着以 Next-token prediction 为代表的大模型技术迅猛发展,其应用已从单一语言模型快速拓展至多模态领域。本次分享将以语言模型为切入点,系统介绍多模态场景下生成与理解技术的演进脉络,重点围绕语音、图像两大模态,探讨前沿多模态模型的架构设计思路,并展望未来核心研究方向。

俞刚,阶跃星辰副总裁,研究方向聚焦计算机视觉与人工智能领域,涵盖生成式 AI、目标检测、图像分割、人体关键点估计、人体动作识别及三维重建等方向。2014 年于南洋理工大学(NTU)获得博士学位,师从黄俊松教授(Prof. Junsong Yuan)。此前曾在腾讯担任研究总监四年,并在旷视科(Face++)工作五年。他在本次会议的详细演讲内容如下:

演讲提纲:

  1. 大语言模型(LLM)2023 年至今的发展变化

    Step 3.5 flash 相关介绍

  2. 文本与语音交互的融合及发展

    Step-audio 2 & Step-audio 2.5 相关介绍

  3. 文本+语音+视觉的多模态融合

    Step-image 2 & Step-audio-editx 相关介绍

  4. 生成一体化的难点与实现路径

  5. 未来探索方向整理

听众收益:

  • 了解多模态生成和理解的前沿进展

除此之外,本次大会还策划了端侧 AI、物理与数字空间智能化世界模型与多模态智能突破Agent 架构与工程化实践Agent 安全与可信治理企业级研发体系重构AI 原生数据工程AI 时代的个人提效与组织变革等 14 个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

8 折倒计时进入最后一周,现在报名立减 1160,查看更多详情可扫码或联系票务经理 13269078023 进行咨询。