时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

Infinity:视觉自回归生成新路线|AICon 北京

  • 2025-05-28
    北京
  • 本文字数:1110 字

    阅读完需:约 4 分钟

大小:592.99K时长:03:22
Infinity:视觉自回归生成新路线|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


字节跳动 AIGC 算法工程师韩剑已确认出席并发表题为《Infinity:视觉自回归生成新路线》的主题分享,探讨以 ChatGPT、DeepSeek 为代表的大语言模型(LLM)取得了巨大的成功,掀起了全球新一轮 AI 浪潮,但是在视觉生成领域,目前主流的方法却是一直以扩散模型为主导。与大语言模型采取相同技术路线的视觉自回归方法因为具有更好的 scaling 特性,能够统一理解 &生成任务,隐藏着巨大的潜力,正受到人们越来越多的重视。本次演讲中,韩剑将以被选为 CVPR 2025 Oral 的工作 Infinity 为例,详细介绍自回归视觉生成的底层技术原理。并以图像生成和视频生成两个具体场景,分享最新的研究成果和相关思考。



韩剑,硕士毕业于清华大学电子系,现就职于字节跳动商业化技术团队,该团队在视觉生成领域先后推出了 VAR、LllamaGen、Infinity、Goku 等多项重要研究成果。韩剑的主要研究方向为图像生成和视频生成,在自回归图像生成和视频生成领域积累了丰富的经验,其最新研究成果 Infinity 被选中在 CVPR 2025 上做口头报告。他在本次会议的详细演讲内容如下:


演讲提纲

1. 自回归模型和 Scaling Law

2. 视觉自回归 v.s. 扩散模型

3. Infinity:视觉自回归生成新路线

  • 离散 Visual Tokenizer

  • Bitwise AutoRegressive Modeling

  • 图像生成实践

  • 视频生成实践

4. 分析和思考


您认为,这样的技术在实践过程中有哪些痛点?目前看以 Infinity 为代表的视觉自回归模型在视频生成任务上相比 SOTA 的扩散模型生成速度具有明显优势,但是效果上还有一些差距。


您的演讲有哪些前沿亮点?这是一个非常详尽的视觉自回归技术分享,通过这次分享,读者可以深入了解到视觉自回归的底层技术实现、目前达到的效果水位,以及未来可能的研究方向。


听众收益

  • 视觉自回归的技术原理、实现方法、目前达到的生成效果

  • 视觉自回归技术的优缺点以及未来的发展方向

  • 如何基于视觉自回归构建图像/视频生成模型


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-05-28 14:003748

评论

发布
暂无评论

正式官宣|集成无界·RestCloud零代码集成自动化平台即将发布

谷云科技RestCloud

基础软件是世界的事业 | 论数据库开源的力量

TiDB 社区干货传送门

支持信创的数据安全运维平台哪个好?咨询电话多少?

行云管家

信创 数据安全 国产 数据安全运维

软件测试|教你轻松解决pip安装下载超时问题

霍格沃兹测试开发学社

Hutool中那些常用的工具类和实用方法 | 京东云技术团队

京东科技开发者

hutool java工具类 企业号10月PK榜

通过NGINX搭建TiDB负载均衡

TiDB 社区干货传送门

安装 & 部署

TiDB实践安装及性能测试(上)

TiDB 社区干货传送门

安装 & 部署 性能测评 6.x 实践

抢先体验!星河社区ERNIE Bot SDK现已支持文心大模型4.0

飞桨PaddlePaddle

开发工具 文心大模型 星河社区

mac电脑版多协议远程管理软件:Termius激活中文版

胖墩儿不胖y

SSH SSH工具 Mac软件 ssh客户端

CSS色域、色彩空间、CSS Color 4新标准 | 京东云技术团队

京东科技开发者

CSS 前端 浏览器 企业号10月PK榜

便携式ECG方案介绍

华秋电子

新品研发协同平台,助力快消企业新品上市成功!

赛博威科技

数字化转型 新产品 茅台 产品研发

HAProxy安装及搭建tidb数据库负载均衡服务实战

TiDB 社区干货传送门

7.x 实践

数据安全法里面的数据是指什么?具体条例内容是什么?

行云管家

数据安全 数据安全法 数据运维 数据安全运维

玩转视图变量,轻松实现动态可视化数据分析

观测云

数据分析 可观测性 数据可视化

Dapp钱包智能合约链上质押模式系统开发

l8l259l3365

软件测试|一文带你了解Flask框架

霍格沃兹测试开发学社

你不知道的浏览器Console玩法

Kevin_913

前端 控制台 调试工具

WebSocket 原理详解:全方位解读

Apifox

程序员 最佳实践 websocket 协议 API

云起无垠典型案例入选《2023软件供应链安全洞察》报告

云起无垠

git 拉取分支后不想合并了

图颜有信

数字孪生智慧钢厂 Web3D 可视化管理平台

2D3D前端可视化开发

5G 物联网 可视化 数字孪生 智慧钢厂

TiDB实践安装及性能测试(下)

TiDB 社区干货传送门

迁移 管理与运维 备份 & 恢复 6.x 实践

记一次 TiDB v7.1 版本生产环境的完整搭建流程

TiDB 社区干货传送门

7.x 实践

PCB表面镀金工艺,还有这么多讲究!

华秋电子

软件测试|一文教你flask路由配置

霍格沃兹测试开发学社

Infinity:视觉自回归生成新路线|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章