写点什么

Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望|QCon 北京

  • 2025-03-17
    北京
  • 本文字数:818 字

    阅读完需:约 3 分钟

Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


阶跃星辰 Tech Fellow 段楠已确认出席并发表题为Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望的主题分享,本演讲将围绕 Step-Video 系列开源模型,介绍视频生成基础模型的最新进展,包括文生视频和图生视频等任务。此外,本报告还将总结现有视频生成模型面临的主要挑战,并和大家讨论未来可能的发展发向。


段楠博士现任阶跃星辰 Tech Fellow ,带领研究团队构建以语言和视频为中心的多模态基础模型。此前,他曾任微软亚洲研究院资深首席研究员、自然语言计算团队研究经理( 2012 年至 2024 年)。段博士是中国科学技术大学和西安交通大学兼职博导,天津大学兼职教授。主要从事自然语言处理、代码智能、多模态基础模型、智能体等研究。他在本次会议的详细演讲内容如下:


演讲提纲

1. 视频生成背景和现状

  • 视频生成从简单的帧插值逐渐演变为复杂的多模态生成任务

  • 多模态融合(文本、图像、音频等)、大规模预训练模型的应用逐渐成为趋势

2. 视频生成 SoTA 模型:Step-Video

  • 技术亮点

  • 实验结果:性能对比、案例分析

  • 视频生成目前面临的挑战

3. 关于未来的讨论

  • 更强大的多模态融合

  • 实时生成

您认为,这样的技术在实践过程中有哪些痛点?

  • 高质量数据的获取、训练和推理效率、物理规律的遵循

演讲亮点

  • SoTA 模型的技术创新与架构优势

  • 系统优化与高效训练

听众收益

  • 了解该领域最新进展


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-17 18:435469

评论

发布
暂无评论

为什么知识库很重要?这是我听过最好的答案

Geek_da0866

如何为您的企业设置内部Wiki?

Geek_da0866

Dao智能合约Dapp系统开发技术

薇電13242772558

智能合约 dapp DAO

如何编写您的常见问题页面?

Geek_da0866

Gpushare.com | 如何使用TensorBoardX可视化工具?

恒源云

深度学习 PyTorch tensorboard GPU算力

小海豚“变身”全新智能调度引擎,深入浅出在DDS的实践开发应用

白鲸开源

大数据 工作流调度 调度任务 分布式调度引擎 大数据调度

构建知识库时,如何避免最常见的几个错误?

Geek_da0866

图像处理解决方案 veImageX 技术演进之路

字节跳动视频云技术团队

计算机视觉 图像处理 图像压缩 图像增强算法

千亿营收之后,阿里云生态有了新打法

B Impact

百度搜索打击盗版网文站点:互联网内容侵权现象为何屡禁不止

石头IT视角

有数大数据基础平台之智能运维平台EasyEagle介绍:集群队列篇

网易数帆

大数据 数据智能 数据基础设施

快速支持客户知识库的核心优势是什么?

Geek_da0866

区块链开发:如何从 Solidity 智能合约中发送和取款

devpoint

区块链 Solidity 7月月更

时代潮头,华为将风帆对准数字金融的风与海

脑极体

Flink数据源拆解分析(WikipediaEditsSource)

程序员欣宸

Java flink 7月月更

华为云AI院长峰会在黔举行 推动人工智能产学研创新发展

极客天地

乘势而上,OceanBase推动数字支付精益增长

OceanBase 数据库

wallys/PD-60 802.3AT Input Output 802.3AT/AT 85% Efficiency 10/100/1000M GE Surge Protection

wallys-wifi6

MT7915/MT7975/IPQ6000

【愚公系列】2022年07月 Java教学课程 07-变量和数据类型

愚公搬代码

7月月更

离开大厂,一周965+远程工作报告

无人之路

大厂 内卷 955 远程 WLB

NFTScan 与 Atem Network 在 NFT 数据领域达成战略合作

NFT Research

NFT NFTScan

网络安全之ARP欺骗防护

网络安全学海

网络安全 安全 信息安全 渗透测试 漏洞挖掘

建立的知识库的7个步骤

Geek_da0866

硕果累累,再获认可!「报告、标准、评测」洞见科技走在前沿

洞见科技

隐私计算

二进制SCA指纹提取黑科技:Go语言逆向技术

华为云开发者联盟

云计算 安全 后端

创建企业wiki,你需要知道这些

Geek_da0866

AWS使用EC2降低DeepRacer的训练成本DeepRacer-for-cloud的实践操作

指剑

AWS Amazon EC2 deepracer

AIRIOT答疑第5期|如何使用低代码业务流引擎?

AIRIOT

物联网

编写一个具有搜索提示的搜索框

空城机

JavaScript 7月月更

如何优雅的改变this指向

bo

JavaScript 前端 7月月更

Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望|QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章