写点什么

豆包视频生成大模型正式发布,首次突破多主体互动难关

  • 2024-09-24
    北京
  • 本文字数:1081 字

    阅读完需:约 4 分钟

大小:581.81K时长:03:18
豆包视频生成大模型正式发布,首次突破多主体互动难关

字节跳动正式宣告进军 AI 视频生成。9 月 24 日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型,面向企业市场开启邀测。

 

  • 多动作多主体交互能力示例:

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • 一致性切镜能力示例:

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展 AI 视频的创作空间和应用落地。”火山引擎总裁谭待表示。

       

      据火山引擎介绍,豆包视频生成模型基于 DiT 架构,通过高效的 DiT 融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法更是攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。

       

      据悉,豆包视频生成模型经过剪映、即梦 AI 等业务场景打磨和持续迭代,来达到具备专业级光影布局和色彩调和、画面视觉极具美感和真实感的目的。深度优化的 Transformer 结构则大幅提升豆包视频生成的泛化能力,支持 3D 动画、2D 动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例,不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景,也能为专业创作者和艺术家们提供创作辅助。


      目前,新款豆包视频生成模型正在即梦 AI 内测版小范围测试,未来将逐步开放给所有用户。剪映和即梦 AI 市场负责人陈欣然认为,AI 能够和创作者深度互动,共同创作,带来很多惊喜和启发,即梦 AI 希望成为用户最亲密和有智慧的创作伙伴。

       

      此外,豆包大模型不仅新增视频生成模型,还发布了豆包音乐模型和同声传译模型,已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。

       

      火山引擎在这次发布会上还披露了豆包大模型的使用量。据悉,截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,相比 5 月首次发布时增加十倍,多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。

       

      此前,豆包大模型公布低于行业 99%的定价,引领国内大模型开启降价潮。谭待认为,大模型价格已不再是阻碍创新的门槛,随着企业大规模应用,大模型支持更大的并发流量正在成为行业发展的关键因素。

       

      谭待介绍,业内多家大模型目前最高仅支持 300K 甚至 100K 的 TPM(每分钟 token 数),难以承载企业生产环境流量。例如某科研机构的文献翻译场景,TPM 峰值为 360K,某汽车智能座舱的 TPM 峰值为 420K,某 AI 教育公司的 TPM 峰值更是达到 630K。为此,豆包大模型默认支持 800K 的初始 TPM,客户还可根据需求灵活扩容。

       

      “在我们努力下,大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能,卷更好的模型能力和服务。”谭待说道。

      2024-09-24 16:397966

      评论 1 条评论

      发布
      用户头像
      生成的都是欧美人?
      2024-09-30 11:00 · 北京
      回复
      没有更多了
      发现更多内容

      架构师训练营第六周作业

      Geek_4c1353

      「深度解析」告诉你如何选择容器存储

      焱融科技

      Kubernetes 容器 云原生 焱融科技 分布式文件存储

      你有时间吗?

      池建强

      时间

      30 岁的码农人生 ——人生至暗时,你依然能窥见光明

      苹果看辽宁体育

      程序员 程序人生 感悟

      基于阿里云容器的CI/CD落地实践

      LorraineLiu

      阿里云 k8s Helm jenkins CI/CD

      uni-app支持PC宽屏适配

      崔红保

      uni-app 大前端

      爬虫“学前班”,记住这些不踩坑!

      华为云开发者联盟

      爬虫 数据 搜索

      一文读懂GaussDB(openGauss) 的六大关键技术特性

      华为云开发者联盟

      数据库 数据 存储

      实用!8个 chrome插件玩转GitHub,单个文件下载小意思

      程序员小富

      GitHub

      WebSocket-技术专题-服务器端消息推送

      码界西柚

      大企程序员亲身经历告诉你,CRM系统,自己的才是最好的

      Learun

      敏捷开发

      【JSRC小课堂】Web安全专题(一)认证缺失和认证缺陷漏洞

      京东科技开发者

      WEB安全

      什么是动态代理

      Rayjun

      Java 动态代理

      最近程序员频繁被抓,如何避免面向监狱编程!?

      Java架构师迁哥

      如何生成 Flink 作业的交互式火焰图?

      Apache Flink

      flink

      求职时这样回答问题你就输了!来自IT类面试官视角的深度解读

      华为云开发者联盟

      面试 软件开发

      10 张图打开 CPU 缓存一致性的大门

      小林coding

      缓存 cpu 操作系统 计算机

      API生态的发展与机遇:从5000组数据看中国API生态与开发者现状

      华为云开发者联盟

      华为 API

      来自阿里面试官的Java面试连珠炮,让你自由发挥你能撑到哪一步?

      Java架构之路

      Java 程序员 架构 面试 编程语言

      Vidyo的技术特点都有哪些?

      dwqcmo

      音视频 集成架构 解决方案 智能硬件

      阿里巴巴专属著作超赞,就是名字起得有点狂“成神之路”???

      Java架构师迁哥

      接口测试工具

      测试人生路

      接口文档 接口测试

      搜狗搜索或成为企鹅号流量入口:腾讯欲实现自己的流量闭环

      石头IT视角

      以A.I.之力打破方言沟通障碍 科大讯飞重磅发布智慧翻译系统

      Talk A.I.

      小程序云开发实战:从0搭建科技爱好者周刊小程序

      薛定喵君

      微信小程序 小程序云开发 云开发

      MySql从青铜到王者晋级之路,阿里大牛经验总结让牛少走弯路!

      Java架构之路

      Java 程序员 架构 面试 编程语言

      即构SDK10月迭代:新增多款语音音效、外部采集码流控制及Android SDK 最低支持操作系统版本调整

      ZEGO即构

      android RTC

      我服了,难倒无数程序员的源码面试,就这样被轻轻松松讲透彻

      小Q

      Java 学习 源码 架构 面试

      分布式文件存储QoS硬核黑科技,真香

      焱融科技

      高性能 存储 HPC 分布式文件存储 QoS

      程序员不愿意说的秘密!Java进阶架构师必看:架构完美设计+程序员三门课+架构修炼之道

      Java架构追梦

      个人计算机、工作站、服务器的主要区别

      德胜网络-阳

      豆包视频生成大模型正式发布,首次突破多主体互动难关_AI&大模型_褚杏娟_InfoQ精选文章