Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望|QCon 北京

  • 2025-03-17
    北京
  • 本文字数:818 字

    阅读完需:约 3 分钟

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。

阶跃星辰 Tech Fellow 段楠已确认出席并发表题为Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望的主题分享,本演讲将围绕 Step-Video 系列开源模型,介绍视频生成基础模型的最新进展,包括文生视频和图生视频等任务。此外,本报告还将总结现有视频生成模型面临的主要挑战,并和大家讨论未来可能的发展发向。

段楠博士现任阶跃星辰 Tech Fellow ,带领研究团队构建以语言和视频为中心的多模态基础模型。此前,他曾任微软亚洲研究院资深首席研究员、自然语言计算团队研究经理( 2012 年至 2024 年)。段博士是中国科学技术大学和西安交通大学兼职博导,天津大学兼职教授。主要从事自然语言处理、代码智能、多模态基础模型、智能体等研究。他在本次会议的详细演讲内容如下:

演讲提纲

1. 视频生成背景和现状

  • 视频生成从简单的帧插值逐渐演变为复杂的多模态生成任务

  • 多模态融合(文本、图像、音频等)、大规模预训练模型的应用逐渐成为趋势

2. 视频生成 SoTA 模型:Step-Video

  • 技术亮点

  • 实验结果:性能对比、案例分析

  • 视频生成目前面临的挑战

3. 关于未来的讨论

  • 更强大的多模态融合

  • 实时生成

您认为,这样的技术在实践过程中有哪些痛点?

  • 高质量数据的获取、训练和推理效率、物理规律的遵循

演讲亮点

  • SoTA 模型的技术创新与架构优势

  • 系统优化与高效训练

听众收益

  • 了解该领域最新进展

除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。