来 DTDS 全球数字人才发展峰会,与刘润、叶军、快刀青衣畅聊成长>> 了解详情
写点什么

抠图剧“一毛特效”不忍直视,以假乱真才是 AI 视频抠图的真水平

2020 年 5 月 07 日

抠图剧“一毛特效”不忍直视,以假乱真才是AI视频抠图的真水平

粗制滥造的抠图影视剧画面简直不忍直视,真正的抠图技术应该是什么样的?


影视剧抠图乱象频出,AI 抠图以假乱真

这几年,影视剧抠图乱象频出,粗糙、简陋的抠像操作所呈现出的“一毛特效”简直不忍直视,硬生生碾压了“五毛特效”。



抠图过的画面具有很多典型的“硬伤”:人像比例失调、表情僵硬,人物与背景结合生硬,背景虚化等,令人打眼一看上去就觉得十分违和,严重影响了用户的观看体验。



阿里巴巴资深算法专家任海兵在接受 InfoQ 采访时表示,现在很多影视剧抠图技术“太假”、特效效果不好,一方面因为拍摄经验不足,无法和抠图技术很好的配合,另一方面可能是因为后期制作费用不足,导致后期没有人工仔细校验修改。


其实,抠图是影视剧后期使用非常普遍的一种技术,例如在好莱坞的电影拍摄过程中特效制作基本都会使用绿幕拍摄,然后通过后期抠图合成技术。


不过这项技术大多数时候都用不上。制片人何静曾表示,这类技术使用的比例一般控制在 5%至 10%,多用在无法正常拍摄或者无法实现以及不能呈现最佳效果的情况下。


但现在因为制作成本,演员演技、档期冲突等因素,大面积抠图的影视剧越来越多,且质量堪忧,给观众一种抠图技术很不靠谱的感觉,这伤害了技术本身,也让技术污名化。


不能否认的是,随着抠图技术更加成熟以及影视剧、视频制作的需要,智能抠图将是大势所驱。如何让抠图更加逼真,效果更加自然,AI 将在其中发挥越来越关键的作用。现在已有很多修图软件应用上了 AI,随着视频 AI 算法的发展,视频智能抠图也开始新兴起来。


此外,长期来看,智能抠图也将是节省成本、提高效率和精度的最优选择。


相对于手工 PS 来说,智能抠图优势突出,一方面,可以大幅度提高抠图效率。以图像抠图为例,一个复杂的人物手工抠图需要手工几分钟时间;而利用交互式智能抠图算法,几秒钟就可以完成。智能抠图还可以达到“毛发毕现”的效果,凸显毛发部分的分割精度,这是人手工几乎无法完成的。


传统的图像抠图算法都是基于非深度学习的算法,例如 KNN matting,Closed-Form matting,Bayesian matting 等。AI 抠图是利用深度学习算法从图像和视频中把用户感兴趣的物体扣出来,可以把抠出来的物体放到新的背景上,合成新的图片和视频。


任海兵表示,目前流行的 AI 抠图算法都是基于深度学习的算法,相对于传统算法,AI 抠图算法有两个优点:一是抠图精度更高,二是可以在 GPU 上并行计算,速度更快。


阿里文娱智能视频抠图技术

智能抠图最直接用到的 AI 技术是图像抠图算法(image matting)。但为了得到更好的抠图效果,目前很多抠图技术都采用多种算法结合的解决方案,还包括显著性物体检测、图像语义分割和实例分割等算法。


相比图像抠图,视频抠图算法最大难点是时序一致性。“对于视频抠图结果,一帧帧看结果都很不错,但是连在一起,边缘地区就会有抖动,抠图时序的一致性不够好”,任海兵说。


视频智能抠图技术就是在图像抠图技术基础之上,增加视频物体分割等算法来保证视频抠图结果的时序一致性,达到“抖动小,更平滑”的分割效果。


先来感受一下阿里的视频抠图技术:


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.5x
    网页全屏
    全屏
    00:00


    视频 1


    00:00 / 00:00
      1.0x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.5x
      网页全屏
      全屏
      00:00


      视频 2


      抠图后,视频中的人神情、动作非常生动、自然,人物的头发丝纤细可见,视频主体人物和背景的衔接流畅,能够准确区分,整个画面很完整,傻傻分不清哪一个是抠图后的,足以以假乱真了。如果对比上面那些粗糙的抠图画面,效果简直“吊打”了。


      值得一提的是,该视频的前景和背景颜色比较接近,在这样的情况下,要保证抠图对象的完整性和局部细节的精确度,所需的技术难度较高,尤其对于头发丝、衣服褶皱等抠图精细程度高的部分。


      任海兵表示,视频人物抠图,从人物分割来看,算法模型需要学习人物的先验知识,在前景/背景颜色比较接近和复杂纹理的情况下,人的先验知识可以起到重要的作用,能保证抠图对象的完整性。


      抠图对象的整体性主要依赖图像高层语义特征,局部细节的精确性侧重图像低层局部特征。实际系统中二阶段的抠图方法比 E2E 的抠图算法能够达到更高的精度。二阶段的抠图方法中,第一阶段是硬分割阶段;第二阶段是软分割,首先要保证硬分割结果中对象的整体性和边缘的准确性,然后在准确性的基础上利用软算法达到“毛发毕现”的效果。因此,在第一阶段中就需要确保对象的整体性和边缘的准确性。


      “为了既保证对象的整体性,又能得到精确的局部细节,从算法角度,高层特征和低层特征需要很好的融合在一起",任海兵介绍。


      目前很多图像分割网络,例如 HRnet 在这方面都处理得比较好。任海兵团队参考 HRnet、Deeplab V3+等语义分割网络提出了对应解决方案,该方案目前在最重要的语义分割数据集 Cityscape Test 数据集上达到了 84.3%的正确率。


      智能视频抠图商用落地

      目前,阿里文娱所采用的视频抠图解决方案均是针对文娱业务的应用场景定制化研发,其目的是从影视综剧中抠出人物区域,进行视频内容的二次生成和创作。


      “我们会根据人物抠图的特点,设计一些模块,例如人体分割的自动评估模块等”,任海兵表示,“我们采用的抠图原始数据基本上都是来自优酷的影视综剧,这是我们业务的场景,我们尤其看重古装人物的分割,因为古装人物复杂的头饰、服饰、武器等都是分割算法的难点”。目前,阿里已经建立了业界最大的视频人物分割数据集,并将在今年阿里文娱的 MEIDA AI 算法大赛“高精度视频人物分割赛道”中部分发布。


      阿里文娱主要采用 AI 与人工结合的抠图模式,利用 AI 算法为人工赋能,大规模提高人工效能。例如在优酷商业化广告项目中,全自动的视频人物抠图后接入人工审核和交互式分割链路,也就是说,如果全自动的视频人物抠图的结果不合格,后续将由人工进行修补。


      从算法的角度讲,人物抠图和物体抠图并没有本质的区别,算法原理、网络框架基本上都是一样的,只是数据不相同。因为视频中人是观众最感兴趣的对象,所以阿里文娱更侧重于影视综剧中的人像抠图。针对领域,任海兵团队提出了视频/图像人物无监督和交互式抠图算法。目前,阿里的算法已经具备商用落地的能力,正逐步应用于多个项目。


      最近几年,智能抠图应用开始在工业领域逐步落地,在商品海报制作、视频弹幕等场景运用,上述场景属于简单场景,图像背景比较简单或者对分割精度要求不高,主要采用人工+AI 方式抠图。


      而影视综剧视频制作中给人物换背景等复杂场景,则要求更高的抠图精度和更高的平滑性。这对硬分割和软分割技术都提出了很高的要求。


      为了达到软分割高度的平滑性,视频软分割(video matting)算法是非常重要的。“但在 video matting 领域,最近几年学术界没有明显的进展。但我相信,随着工业界需求越来越多,越来越多的研究人员会投身 video matting 领域,推动这个领域的发展”,任海兵表示。


      他坦言,目前特别智能的抠图算法,特别是视频抠图算法,还处于实验室研究阶段。算法特别复杂,需要大量的计算资源,且算法本身也不是特别成熟,在通用场景和复杂场景下达不到用户的预期,因此只在某些特定的领域内针对具体场景进行优化,达到小范围的商用。市面上,商用软件中的抠图算法,需要处理更加通用的场景,加之受计算资源限制,无法使用特别复杂的算法,还达不到特别的智能。


      不过,最近两年,深度学习在像素级分类任务上取得了较大的进展。智能抠图相关的算法,例如图像物体分割、视频物体分割、Image Matting 等也取得了较大的进步。视频抠图在实现高度智能、大规模商用方面的潜力值得期待。


      采访嘉宾介绍

      任海兵,计算机视觉专题专家阿里巴巴资深算法专家任海兵,从事视频理解算法研究。拥有 20 多年计算机视觉从业经历。在加入阿里之前,任海兵在三星中国技术院工作 了 11 年,先后担任计算机视觉和医疗图像算法团队负责人;在英特尔中国研究院工作了 4 年,从事机器人视觉感知研究工作。


      2020 年 5 月 07 日 13:375074
      用户头像
      刘燕 InfoQ记者

      发布了 598 篇内容, 共 190.0 次阅读, 收获喜欢 1159 次。

      关注

      评论

      发布
      暂无评论
      发现更多内容

      五面蚂蚁金服(4次技术面+1次HR)来看看这面试题是不是太难了!

      Java成神之路

      Java 程序员 架构 面试 编程语言

      Java面试“圣经”,已助朋友拿到7个Offer!2021年金三银四面试知识点合集

      Java架构之路

      Java 程序员 架构 面试 编程语言

      MMMDeFi智能合约(MDF互助)系统开发方案

      薇電13242772558

      智能合约 数字货币

      NAC公链公链未来前景如何?为应用而生的Nirvana NA公链

      区块链第一资讯

      区块链 公链 挖矿

      还在计划转Go么,聊聊程序员的成长

      架构精进之路

      go 3月日更

      大厂敲门砖!P9技术官级别的顶级并发编程宝典,献给想去大厂的你

      Crud的程序员

      Java 程序员 架构

      产品经理大作业

      赵志广

      产品经理训练营

      使用融云 SDK 避坑指南之 iOS13 推送失败

      融云 RongCloud

      还在等机会?Android岗面试12家大厂成功跳槽,最全的BAT大厂面试题整理

      欢喜学安卓

      android 程序员 面试 移动开发

      “刚刚”顺丰校招二面+美团社招三面面经,分享给准备冲刺金三银四的你

      Java成神之路

      Java 程序员 架构 面试 编程语言

      使用Spark Mllib进行数据分析

      大数据技术指南

      大数据 spark 28天写作 3月日更

      挑灯夜战800个小时,终从外包成功上岸字节!入职那一天我眼眶湿润了「Java岗」

      Java架构之路

      Java 程序员 架构 面试 编程语言

      2021年人工智能产业发展趋势

      百度开发者中心

      趋势

      Java-技术专题-挖掘陷阱系列(1-10)

      李浩宇/Alex

      Java

      Hystrix技术专题-基础配置说明

      李浩宇/Alex

      Hystrix

      MySQL要分表分库怎么进行数据切分?

      码农架构

      Java MySQL

      Offer收割机!Github爆火的2021金三银四Java面试知识全栈小册太香了!

      程序员小毕

      数据库 面试 分布式 JVM 网络

      实时计算应用及技术选型

      五分钟学大数据

      大数据 flink 28天写作 3月日更

      面试必备知识点!2021Android大厂面试知识分享,offer拿到手软

      欢喜学安卓

      android 程序员 面试 移动开发

      云通信产品专家翅飞:企业如何提升用户全生命周期管理效率?号码百科来帮忙

      阿里云Edge Plus

      产品训练营--大作业

      曦语

      产品训练营

      大作业2

      简简单单

      快手四面(技术3面+HR面)已拿意向书,分享面经

      Java成神之路

      Java 程序员 架构 面试 编程语言

      重磅 | 国内首款研发OKR管理工具PingCode Goals正式发布

      PingCode

      OKR 研发管理 研发效能 研发管理工具

      浅谈自动化测试

      行者AI

      自动化测试

      大作业 1

      简简单单

      Worktile CTO :研发团队落地OKR管理经验分享

      PingCode

      团队管理 互联网 OKR 研发管理 研发管理工具

      吐血整理超全Java进阶教程:基础+容器+并发+虚拟机+IO

      Java架构之路

      Java 程序员 架构 面试 编程语言

      最高法两会报告聚焦区块链惩治抄袭,区块链在保护网络著作权方面如何作为?

      旺链科技

      版权保护 区块链应用

      牛逼了!这是什么神仙面试宝典?半月看完25大专题,居然斩获阿里P7offer

      云流

      Java 程序员 架构 面试

      filwallet 需求文档-产品训练营大作业

      流浪猫

      filwallet

      「中国技术开放日·长沙站」现场直播

      「中国技术开放日·长沙站」现场直播

      抠图剧“一毛特效”不忍直视,以假乱真才是AI视频抠图的真水平-InfoQ