QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

阿里最新图生视频模型效果好得可比肩 Sora,但 0 代码“假”开源让国内外网友骂翻了天?

  • 2024-03-01
    北京
  • 本文字数:3377 字

    阅读完需:约 11 分钟

大小:1.66M时长:09:41
阿里最新图生视频模型效果好得可比肩Sora,但0代码“假”开源让国内外网友骂翻了天?

国外有文生视频的 Sora,国内有图生视频的 EMO。

阿里开发出 AI 图生视频模型 EMO

 

近日,阿里巴巴集团智能计算研究院上线了一款 AI 图生视频模型 EMO(Emote Portrait Alive)。据悉,EMO 是一种富有表现力的音频驱动型肖像视频生成框架,用户用户只需要提供一张照片和一段任意音频文件,EMO 即可生成具有丰富面部表情和多种头部姿态的语音头像视频。此外,EMO 还可以根据输入音频的长度生成任意长度的视频。

 

在阿里给出的示例中,奥黛丽·赫本深情吟唱:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    小李子演唱超“烫嘴”Rap《哥斯拉》:

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      蒙娜丽莎声情并茂地演讲:

       

      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        高启强化身罗翔普法:

         

        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          据了解,为了训练这套模型,阿里建立起一套庞大且多样化的音频视频数据集,共收集了超过 250 小时的视频与超过 1.5 亿张图像。这套庞大的数据集涵盖广泛内容,包括演讲、影视片段、歌唱表演,并涵盖汉语、英语等多种语言。丰富多样的语音和歌唱视频确保训练素材能够涵盖广泛的人类表情与声乐风格,为 EMO 模型的开发提供坚实基础。

           

          论文:https://arxiv.org/abs/2402.17485

           

          目前,EMO 相关论文已发表于 arXiv,同时在 GitHub 上出现了同名疑似开源的 repo,该项目 GitHub Star 数已达到 3.6 k,但仍然是空仓。这也引起了一部分开发者的不满,质疑其是“假开源”。

           

          GitHub:https://github.com/HumanAIGC/EMO



          目前该 repo 并不在阿里官方的 GitHub 目录下,也没有任何地方显示该 repo 与阿里官方直接相关。虽然该 repo 上一级 HumanAIGC 页面显示介绍为“Alibaba TongYi XR”,但真实性并不可考,同时 HumanAIGC 目录下还有多个子项目,但情况都与 EMO 类似,基本都是空仓。InfoQ 就此事向阿里方面求证,截至发稿时暂未得到回应。



          目前,EMO 的 issues 中充满了抱怨,有开发者认为,如果该模型效果不好,也不会引来这么多“骂声”,大家对 EMO GitHub 空仓事件反应越大,越说明大家对 EMO 源码感兴趣,也侧面认可了 EMO 的效果。

           

          也有开发者表示可以接受 EMO 不开源,开放 API 接口就行,并表示愿意为其付费。

           

          有专家指出,如果没有开源计划,请不要放空的 GitHub repo;如果有开源计划,最好整理完再开源。



          EMO 是如何训练出来的?

           

          阿里在论文中详细介绍了 EMO 的训练过程。

           

          据介绍,阿里希望建立一套创新型语音头像框架,旨在捕捉广泛且真实的面部表情,包括各种细致的微表情,同时配合自然的头部运动,保证生成的头像视频获得无与伦比的表现力。为了实现这个目标,阿里提出一种新的扩散模型生成能力应用方法,可以直接根据给定的图像和音频片段合成角色头像视频。

           

          这种方法摆脱了对中间表示或复杂预处理的高度依赖,简化了语音头像视频的创建过程,其成果表现出极高的视觉和情感保真度,能够与音频中存在的细微动态紧密匹配。音频信号实际已经包含与面部表情相关的信息,理论上足以支持模型生成各种富有表现力的面部动作。

           

          此外,阿里还在模型中添加了稳定的控制机制,即速度控制器与面部区域控制器,旨在增强生成过程中的稳定性。这两个控制器将充当超参数,以微妙的方式控制信号,保证不致损害最终生成视频的多样性与表现力。为了确保生成视频中的角色与输入参考图像保持一致,阿里还设计并采用了类似的 FrameEncoding 模块以增强 ReferenceNet 方法,借此让角色在整段视频中始终保持稳定。

          相关工作

           

          扩散模型

           

          扩散模型在各个领域都展现出卓越的功能,包括图像合成、图像编辑、视频生成乃至 3D 内容生成等。其中的 Stable Diffusion(稳定扩散,简称 SD)更是堪称典型案例,在利用大型文本图像数据集进行广泛训练之后,采用 UNet 架构迭代生成的模型获得了强大的文本到图像生成能力。这些预训练模型目前已被广泛应用于各类图像与视频生成任务当中。

           

          此外,近期一些工作还采用了 DiT(Diffusion-in-Transformer),这种方法使用包含时间模块和 3D 卷积的 Transformer 对 UNet 进行增强,从而支持更大规模的数据与模型参数。通过从零开始训练整个文本到视频模型,其实现了卓越的视频生成结果。此外,也有研究深入探索了如何应用扩散模型生成语音头像视频并获得了不错的效果,这再次凸显出此类模型在创建逼真头像视频方面的强大能力。

           

          音频驱动头像生成

           

          音频驱动的头像生成技术大致可以分为两种具体方法——基于视频的方法与基于单图像的方法。基于视频的语音头像生成允许对输入的视频片段进行直接编辑。例如,Wav2Lip 就使用音频-唇形同步鉴别器,可根据音频重新生成视频中的唇部运动。但它的局限性在于严重依赖基础视频,导致头部无法自由运动而仅改变嘴部活动,这自然会限制观感的真实性。

           

          至于单图像头像生成,则是利用参考照用来生成与之相符的动态视频。其基本原理是通过学习混合形状与头部姿态来分别生成头部运动和面部表情,然后借此创建 3D 面部网格,以此作为指导最终视频帧生成的中间表示。同样的,3D Morphable Model(3DMM)则作为生成语音头部视频的中间表示。这种方法的常见问题,就是 3D 网格的表现力有限,同样会限制生成视频的整体表现力与真实感。

           

          此外,这两种方法均基于非扩散模型,这进一步限制了生成结果的实际表现。尽管过程中也尝试使用扩散模型来生成语音头像,但结果并未被直接应用于图像帧,而是借此生成 3DMM 的系数。与前两种方法相比,Dreamtalk 在结果上有所改进,但仍无法实现高度自然的面部视频生成。

          EMO 框架设计

           

          EMO 框架主要由两个阶段组成。在称为帧编码的初始阶段,ReferenceNet 用于从参考图像和运动帧中提取特征。在随后的扩散过程阶段,预训练的音频编码器负责处理音频嵌入。面部区域掩模与多帧噪声集成则控制面部图像的生成。接下来是使用 Backbone Network 主干网络来促进去噪操作。在主干网络中应用到两种形式的注意力机制:参考注意力和音频注意力。这些机制分别对应维持角色身份和调节角色动作。此外,Temporal Modules 时间模块用于操纵时间维度并调整运动速度。



          具体来说,EMO 采用 Stable Diffusion(SD)作为基础框架。SD 是一种被广泛使用的文本到图像(T2I)模型,由 Latent Diffusion Model(LDM)发展而来。其利用自动编码器 Variational Autoencoder(VAE)将原始图像的特征分布 x0 映射至潜在空间 z0,将图像编码为 z0=E(x0),并将潜在特征重建为 x0=D(z0)。这种架构能够降低计算成本,同时保持更高的视觉保真度。

           

          基于 Denoising Diffusion Probabilistic Model (去噪扩散概率模型,简称 DDPM)或 Denoising Diffusion Implicit Model (去噪扩散隐式模型,简称 DDIM)方法,SD 能够将高斯噪声ε引入至潜在 z0,从而在特定时步上产生带噪声的潜在 zt。在推理过程中,SD 会消除潜在 zt 中的噪声ε,并结合文本控制以通过集成文本特征来达成预期结果。整个去噪过程的训练目标表示为:


          训练策略

           

          整个训练过程分为三个阶段。第一阶段为图像预训练,其中主干网络、ReferenceNet 和面部定位器被标记在训练当中。在此阶段,主干将单个帧作为输入,而 ReferenceNet 则处理随机选取自一视频片段中的另一不同帧。主干与 ReferenceNet 都以原始 SD 为基础初始化权重。在第二阶段,阿里引入了视频训练,在其中将时间模块与音频层相结合,从视频片段中采样 n+f 个连续帧,其中开始的 n 帧为运动帧。

           

          时间模块从 AnimateDiff 初始化权重。在最后一个阶段,速度层被整合进来,阿里在此阶段只训练时间模块与速度层。作为一项重要决策,团队决定故意在训练过程中省略掉音频层。这是因为说话人的表情、嘴部动作和头部运动的频率主要受音频影响。因此,这些元素之间似乎具有相关性,可能会提示模型根据速度信号、而非音频来驱动角色的运行。最终的实验结果也表明,在训练中同时引入速度层和音频层会破坏音频对角色运动的驱动效果。

           

          与几款领先头像生成模型间的量化比较结果:



          测试结果表明,EMO 在视频质量方面具有显著优势,其中 FVD 得分越低则表明质量越好。此外,阿里的方法在单个帧质量上同样优于其他方法,其中 FID 得分越高则表明质量越好。尽管在 SyncNet 指标上未能获得最高分,但阿里的方法在面部表情生动度方面仍表现出色,对应表中的 E-FID 得分(越低越好)。

           

          配合长时间、高音质音频片段,EMO方法生成的结果。在每个片段中,角色均由高音质音频驱动创建,例如歌唱音频。每个片段的时长约为1分钟。


          与Diffused Heads的比较,生成的片段时长为6秒。Diffused Heads的生成结果分辨率较低,且生成帧会受到错误累积的影响。


          不过,该方法仍有一定局限性。首先,与不依赖扩散模型的方法相比,EMO 更为耗时。其次,由于阿里未使用任何明确的控制信号来引导角色运行,因此可能会无意中生成其他身体部位(例如手部),从而导致视频结果中出现伪影。此问题的一个潜在解决方案,就是采用专门针对身体部位的控制信号。

           

          参考链接:

          https://humanaigc.github.io/emote-portrait-alive/

          https://arxiv.org/abs/2402.17485

          2024-03-01 15:0510026

          评论 3 条评论

          发布
          用户头像
          根本不是一类东西;did很早就有商业化产品;一直以来的吹水尿性
          2024-03-11 17:03 · 中国香港
          回复
          用户头像
          比肩Sora?大言不惭
          2024-03-06 11:05 · 北京
          回复
          用户头像
          阿里巴巴的开源/闭源软件,慎用~
          2024-03-04 09:13 · 广东
          回复
          没有更多了
          发现更多内容

          大模型训练:数据与算法的关键融合

          百度开发者中心

          人工智能 模型训练 大模型

          精彩再现!LLUG 深圳场成功举办 | 附活动资料下载

          OpenAnolis小助手

          开源 演讲 龙蜥社区 LLUG Linux中国

          极光笔记 | 发送功能使用技巧分享

          极光JIGUANG

          营销 消息推送 邮件 邮件通知 海外市场

          腾讯云大数据ES:使用Elastic APM监控SpringBoot服务的最佳实践

          腾讯云大数据

          ES

          大模型训练对深度学习图片检测速度和精度的影响

          百度开发者中心

          深度学习 大模型训练 千帆大模型平台

          如何优化模型渲染性能

          3D建模设计

          性能提升 渲染优化

          MatrixOne Logtail 设计解析

          MatrixOrigin

          分布式数据库 云原生数据库 MatrixOrigin MatrixOne HTAP数据库

          OpenHarmony页面级UI状态存储:LocalStorage

          OpenHarmony开发者

          OpenHarmony

          Kafka架构详解

          tyrande

          kafka 系统设计 架构设计 消息列队

          iPaaS混合集成平台,打造数字化生态

          RestCloud

          数据同步 数字化升级 ipaas

          如何将模型原点设置到模型的中心

          3D建模设计

          模型原点设置 原点归零 原点坐标

          如何设计 API?看这一篇就够了

          高端章鱼哥

          API

          Java时间处理---Java8中时区相关类库介绍

          程序员万金游

          Java 面试 #java #程序员 #JavaSE

          大模型训练:自定义深度学习模型的策略与实践

          百度开发者中心

          大模型训练 文心千帆

          YouTube for mac(YouTube客户端)

          iMac小白

          YouTube客户端 YouTube mac

          XMind mac (XMind思维导图)v23.09中文激活版

          mac

          XMind 思维导图软件 苹果mac Windows软件

          向量召回:深入评估离线体系,探索优质召回方法

          汀丶人工智能

          人工智能 自然语言处理 语义搜索系统 文本匹配 向量召回

          Databend 开源周报第 115 期

          Databend

          万字长文详解低时延股票交易系统的设计

          tyrande

          交易所 事件溯源 股票系统 低延时

          平均检出率“

          矩视智能

          深度学习 机器视觉

          OmniGraffle Pro for mac(专业图表绘制软件) v7.22.1永久激活版

          mac

          苹果mac Windows软件 OmniGraffle Pro 专业绘图软件

          7天狂揽 1.3w star 的 MetaGPT,他们的目标让软件公司为之一惊

          鼎道智联

          GPT

          HTX 与 Zebec  Protocol 展开深度合作,并将以质押者的身份参与 ZBC Staking

          大瞿科技

          大模型训练中的Delta Tuning优化方法

          百度开发者中心

          人工智能 深度学习 大模型训练

          国外服务器入门:为何越来越多的企业选择海外托管?

          一只扑棱蛾子

          国外服务器

          HarmonyOS音视频开发概述

          HarmonyOS开发者

          HarmonyOS

          高效利用内存资源:掌握Redis内存管理与淘汰策略

          树上有只程序猿

          redis 内存管理

          百度何俊杰:扎根百度技术“黑土地”,造大模型“生态雨林”

          Geek_2d6073

          低代码:让软件开发不再遥不可及

          互联网工科生

          低代码 应用开发 JNPF

          阿里最新图生视频模型效果好得可比肩Sora,但0代码“假”开源让国内外网友骂翻了天?_生成式 AI_凌敏_InfoQ精选文章