AICon 北京站 Keynote 亮点揭秘,想了解 Agent 智能体来就对了! 了解详情
写点什么

豆包视频生成大模型正式发布,首次突破多主体互动难关

  • 2024-09-24
    北京
  • 本文字数:1081 字

    阅读完需:约 4 分钟

大小:581.81K时长:03:18
豆包视频生成大模型正式发布,首次突破多主体互动难关

字节跳动正式宣告进军 AI 视频生成。9 月 24 日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型,面向企业市场开启邀测。

 

  • 多动作多主体交互能力示例:

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • 一致性切镜能力示例:

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展 AI 视频的创作空间和应用落地。”火山引擎总裁谭待表示。

       

      据火山引擎介绍,豆包视频生成模型基于 DiT 架构,通过高效的 DiT 融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法更是攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。

       

      据悉,豆包视频生成模型经过剪映、即梦 AI 等业务场景打磨和持续迭代,来达到具备专业级光影布局和色彩调和、画面视觉极具美感和真实感的目的。深度优化的 Transformer 结构则大幅提升豆包视频生成的泛化能力,支持 3D 动画、2D 动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例,不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景,也能为专业创作者和艺术家们提供创作辅助。


      目前,新款豆包视频生成模型正在即梦 AI 内测版小范围测试,未来将逐步开放给所有用户。剪映和即梦 AI 市场负责人陈欣然认为,AI 能够和创作者深度互动,共同创作,带来很多惊喜和启发,即梦 AI 希望成为用户最亲密和有智慧的创作伙伴。

       

      此外,豆包大模型不仅新增视频生成模型,还发布了豆包音乐模型和同声传译模型,已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。

       

      火山引擎在这次发布会上还披露了豆包大模型的使用量。据悉,截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,相比 5 月首次发布时增加十倍,多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。

       

      此前,豆包大模型公布低于行业 99%的定价,引领国内大模型开启降价潮。谭待认为,大模型价格已不再是阻碍创新的门槛,随着企业大规模应用,大模型支持更大的并发流量正在成为行业发展的关键因素。

       

      谭待介绍,业内多家大模型目前最高仅支持 300K 甚至 100K 的 TPM(每分钟 token 数),难以承载企业生产环境流量。例如某科研机构的文献翻译场景,TPM 峰值为 360K,某汽车智能座舱的 TPM 峰值为 420K,某 AI 教育公司的 TPM 峰值更是达到 630K。为此,豆包大模型默认支持 800K 的初始 TPM,客户还可根据需求灵活扩容。

       

      “在我们努力下,大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能,卷更好的模型能力和服务。”谭待说道。

      2024-09-24 16:398246

      评论 1 条评论

      发布
      用户头像
      生成的都是欧美人?
      2024-09-30 11:00 · 北京
      回复
      没有更多了
      发现更多内容

      如何成为一名亚马逊云科技 Community Builder

      亚马逊云科技 (Amazon Web Services)

      Cloud 亚马逊云科技 career

      设计千万级学生管理系统的考试试卷存储方案

      锎心😌😌😌

      KPI与360度考核结合的应用落地方案

      明道云

      直播预告|企业云原生 IT 成本治理方案解析

      阿里巴巴云原生

      阿里云 容器 云原生 cncf 直播预告

      一个平面设计师的异想世界

      万事ONES

      研发管理 设计师 ONES workbalance

      Docker 镜像知多少?

      Daocloud 道客

      云原生 Docker 镜像

      基于Sharding-JDBC的订单分库⽅案

      领创集团Advance Intelligence Group

      工程师们看过来|这是我见过的IT圈最“潮”的产品发布会了!

      观测云

      程序员 可观测性 产品发布会 IT工程师 监测

      使用车载小程序,共建车联网联合共赢生态

      Speedoooo

      车联网 物联网 智能设备 小程序容器 车载设备

      合作创新,携手共赢!共筑坚实数字底座!

      天翼云开发者社区

      系统

      开发改了接口,经常忘通知测试,有什么好的解决方案吗?

      Liam

      测试 Postman 自动化测试 测试工具 测试自动化

      Sidecar 模式的机制与应用

      全象云低代码

      Kubernetes 容器 低代码 后端技术 Sidecar

      以南大通用为例,讲一讲如何完成与龙蜥操作系统的兼容验证

      OpenAnolis小助手

      操作系统 龙蜥社区 南大通用 兼容验证

      列举GaussDB(DWS)常见的查询时索引失效场景

      华为云开发者联盟

      索引 GaussDB(DWS) 隐式类型转化 GIN索引 analyze

      智能手表的下半场,机遇与挑战并存

      Speedoooo

      物联网 小程序容器 智能手表 智能穿戴

      智慧运维平台之全息监控

      鲸品堂

      运维 通信 运营商

      网站的FAQ页面应该怎么写?

      小炮

      FAQ

      阿里云人工智能创新发布-工业五金图片搜索

      视觉智能

      拍照购物 以图搜图 图像搜索 拍立淘

      80+产品正通过兼容性测试,OpenHarmony生态落地已初具规模

      科技汇

      企业如何应对知识管理中的文档管理

      小炮

      知识管理

      OpenHarmony技术日圆满举行 | 3.1 Release版本重磅发布,生态落地初具规模

      OpenHarmony开发者

      OpenHarmony 技术日

      免费IT自动化运维平台- ETL调度批量管理工具 TASKCTL 8.0 作业设计功能使用

      敏捷调度TASKCTL

      数据仓库 数据治理 运维自动化 ETL任务 TASKCTL

      区块链赋能不动产—易居EBaaS在不动产领域应用

      BSN研习社

      区块链

      天翼云Web应用防火墙(边缘云版)拦截WordPress Elementor漏洞的说明

      天翼云开发者社区

      防火墙

      在亚马逊云科技上搭建静态无服务器 Wordpress,每天仅需 0.01 美元

      亚马逊云科技 (Amazon Web Services)

      Serverless CDN WordPress

      OpenHarmony技术日成功举办,全球下载次数高达6300万

      科技汇

      风险与机遇并存,数据分析厂商如何突围?

      ToB行业头条

      一看即会:Serverless 应用开发的 7 个实战小技巧(文末附好礼)

      阿里巴巴云原生

      阿里云 Serverless 架构 开发者 云原生

      松灵学院 | Scout mini 仿真指南

      松灵机器人

      人工智能 机器人 ROS 移动机器人

      不知道OpenCLA的注意啦!(OpenCLA签署须知)

      Jianmu

      开源项目 开源社区 建木CI CLA 贡献者许可协议

      MySQL数据库之数据查询

      乌龟哥哥

      4月月更

      豆包视频生成大模型正式发布,首次突破多主体互动难关_AI&大模型_褚杏娟_InfoQ精选文章