写点什么

豆包视频生成大模型正式发布,首次突破多主体互动难关

  • 2024-09-24
    北京
  • 本文字数:1081 字

    阅读完需:约 4 分钟

大小:581.81K时长:03:18
豆包视频生成大模型正式发布,首次突破多主体互动难关

字节跳动正式宣告进军 AI 视频生成。9 月 24 日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型,面向企业市场开启邀测。

 

  • 多动作多主体交互能力示例:

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • 一致性切镜能力示例:

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展 AI 视频的创作空间和应用落地。”火山引擎总裁谭待表示。

       

      据火山引擎介绍,豆包视频生成模型基于 DiT 架构,通过高效的 DiT 融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法更是攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。

       

      据悉,豆包视频生成模型经过剪映、即梦 AI 等业务场景打磨和持续迭代,来达到具备专业级光影布局和色彩调和、画面视觉极具美感和真实感的目的。深度优化的 Transformer 结构则大幅提升豆包视频生成的泛化能力,支持 3D 动画、2D 动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例,不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景,也能为专业创作者和艺术家们提供创作辅助。


      目前,新款豆包视频生成模型正在即梦 AI 内测版小范围测试,未来将逐步开放给所有用户。剪映和即梦 AI 市场负责人陈欣然认为,AI 能够和创作者深度互动,共同创作,带来很多惊喜和启发,即梦 AI 希望成为用户最亲密和有智慧的创作伙伴。

       

      此外,豆包大模型不仅新增视频生成模型,还发布了豆包音乐模型和同声传译模型,已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。

       

      火山引擎在这次发布会上还披露了豆包大模型的使用量。据悉,截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,相比 5 月首次发布时增加十倍,多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。

       

      此前,豆包大模型公布低于行业 99%的定价,引领国内大模型开启降价潮。谭待认为,大模型价格已不再是阻碍创新的门槛,随着企业大规模应用,大模型支持更大的并发流量正在成为行业发展的关键因素。

       

      谭待介绍,业内多家大模型目前最高仅支持 300K 甚至 100K 的 TPM(每分钟 token 数),难以承载企业生产环境流量。例如某科研机构的文献翻译场景,TPM 峰值为 360K,某汽车智能座舱的 TPM 峰值为 420K,某 AI 教育公司的 TPM 峰值更是达到 630K。为此,豆包大模型默认支持 800K 的初始 TPM,客户还可根据需求灵活扩容。

       

      “在我们努力下,大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能,卷更好的模型能力和服务。”谭待说道。

      2024-09-24 16:397942

      评论 1 条评论

      发布
      用户头像
      生成的都是欧美人?
      2024-09-30 11:00 · 北京
      回复
      没有更多了
      发现更多内容

      慕了!17年阿里架构师把Spring Boot的精髓都总结出来了

      Java你猿哥

      Java spring Spring Boot Spring MVC Java工程师

      HummerRisk 使用教程:镜像检测

      HummerCloud

      镜像安全 云原生安全

      Atlassian Server用户新选择 | 迁移到数据中心版前,您需要做这些准备(2)

      龙智—DevSecOps解决方案

      Atlassian Atlassian 云版 数据中心版 server版

      AI大模型已经出现不可预测的能力

      Baihai IDP

      人工智能 深度学习 NLP 大模型 ChatGPT 企业号 4 月 PK 榜

      研发效能 | DevOps如何改变游戏公司工作方式?

      龙智—DevSecOps解决方案

      DevOps 游戏开发

      KaiwuDB 成为中国信通院数据库应用创新实验室-汽车行业工作组副组长单位

      KaiwuDB

      车联网 KaiwuDB 数据库行业标准制定 汽车工作组

      DAMS大会 | 博睿数据分享《一体化智能可观测平台建设之路》

      博睿数据

      可观测性 智能运维 博睿数据 Bonree ONE

      集成华为运动健康服务干货总览

      HarmonyOS SDK

      HMS Core

      龙智被SmartBear评为2022年“最具动力营销团队”

      龙智—DevSecOps解决方案

      自动化测试 UI测试 UI测试自动测试

      又是一季金三银四,Spring之AOP知识要点总结

      Java你猿哥

      spring Spring Boot ssm aop

      既然有了MySQL,为什么还要有MongoDB

      Java你猿哥

      Java MySQL 数据库 mongodb Java工程师

      免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3

      Openlab_cosmoplat

      开源项目 开源社区

      机器学习实战系列[一]:工业蒸汽量预测(最新版本下篇)含特征优化模型融合等

      汀丶人工智能

      人工智能 数据挖掘 机器学习 LightGBM

      【ChatGPT系列话题】金融行业大语言模型应用落地

      易观分析

      人工智能 金融 模型

      Hive 和 Spark 分区策略剖析

      vivo互联网技术

      spark hive

      如何打造企业专属A/B平台?火山引擎DataTester开放平台技术揭秘

      字节跳动数据平台

      大数据 AB testing实战 开放平台 企业号 4 月 PK 榜 企业增长

      Web2D工业组态工具软件——Sovit2D

      2D3D前端可视化开发

      web组态 组态编辑器 工业组态软件 web组态软件 2D组态

      一种元数据同步的方法

      KaiwuDB

      数据复制 KaiwuDB 元数据同步

      华大北斗高精度芯片助力上汽名爵MG7智能驾驶

      江湖老铁

      “ONE”有引力,4月21日见!

      博睿数据

      智能运维 博睿数据 发布会 Bonree ONE

      你kin你擦!阿里终于肯把内部高并发编程高阶笔记开源出来了

      Java你猿哥

      Java nginx 高并发 SpringCloud 面经

      户外LED显示屏对恶劣环境的防护措施!

      Dylan

      LED显示屏 全彩LED显示屏 户外LED显示屏

      以 100GB SSB 性能测试为例,通过 ByteHouse 云数仓开启你的数据分析之路

      字节跳动数据平台

      大数据 数据仓库 云原生 数据仓库服务 云数仓

      版本控制 | 告别繁琐,P4VJS带来全新的Diff体验

      龙智—DevSecOps解决方案

      版本控制 版本管理

      超实用VS Code for Windows快捷键

      SEAL安全

      vscode 企业号 4 月 PK 榜

      如何选择合适的云数据库架构与规格

      NineData

      数据库 阿里云 AWS RDS 数据库架构设计

      龙智荣获Perforce公司颁发的2022年度销售与技术两项大奖

      龙智—DevSecOps解决方案

      版本控制

      selenium源码通读·1 | 源码目录

      Python 源码 自动化测试 selenium

      软件测试/测试开发丨Web自动化测试中显式等待与隐式等待该怎么用

      测试人

      软件测试 自动化测试 测试开发

      〖产品思维训练白宝书 - 认知篇②〗- 破局高手都具备的一种底层认知就是产品思维

      哈哥撩编程

      #产品思维

      豆包视频生成大模型正式发布,首次突破多主体互动难关_AI&大模型_褚杏娟_InfoQ精选文章