Graph + AI 中国峰会火热报名中,点击探索图分析更多可能! 了解详情
写点什么

快手 Y-tech 万鹏飞:短视频 UGC 智能创作中的 CV 技术和发展趋势

快手科技

2021 年 6 月 22 日

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

近日,2021全球人工智能技术大会在杭州召开。本次大会汇集来自世界各地的人工智能领域专家,共同为人工智能的未来发展建言献策。在 6 月 5 日召开的计算机视觉专题论坛上,快手 Y-tech 部门 AI 技术平台负责人万鹏飞受邀发表了题为《短视频 UGC 智能创作中的计算机视觉技术》的演讲,从产业的角度分享了计算机视觉技术在短视频智能创作方向的应用和发展趋势。

 


快手深耕短视频内容创作生态,UGC 智能创作降本增效


作为国民短视频社区,快手用户日均使用时长 99.3 分钟,整体日活达 3.792 亿。在庞大的用户与流量基础上,快手形成了富有活力的内容创作生态,平台内有 300 亿+原创视频库存,每月新增创作者 1000w+。其中大部分内容是广大普通用户创作的,即 UGC(User Generated Content)。据万鹏飞介绍,UGC 强调人机协同,内容创作的主体是人,技术辅助人做创作;智能创作则强调技术有一定的自动化能力,可在内容创作中起到“降本增效”的作用。对应到实际产品中,快手系产品的 UGC 智能创作主要涵盖了三大类功能:人像美化功能、影音特效功能和独立创作工具。


人像美化功能:快手的人像美化功能包括美颜、美型、美体、美妆、滤镜、画质增强等。除经典的基于图形图像处理的技术方案外,快手将基于深度学习的 CV 技术融入到了人像美化中,大幅提升了用户体验。例如用神经网络来提高人像照片的画质或让照片中的人更年轻,以及通过环境光照估计使美妆效果在实际场景中更加自然等。

 


影音特效功能:除了常见的各种人脸 AR 装饰外,特效功能的含义非常广泛,包括但不限于各种玩法道具、贴纸动效、视频模板和小游戏等。例如万物 AR 玩法是用摄像头扫描通用物体并触发效果(如让湿纸巾跳舞),活照片玩法可以使一张图按照特定方式动起来(如前阵子很火的“蚂蚁呀嘿”),这些都是特效技术的范围。



独立创作工具:快手此前已经推出“快影”和“一甜相机”等多款受欢迎的工具产品帮助用户进行视频和图像的专业创作,最近还刚发布了一款主打高清修图的“原片”app。除这些产品外,此次大会上万鹏飞重点介绍了另外两个比较特别的独立创作工具。


第一个是虚拟偶像创建和开播工具—A 站面捕助手,用户能以很低的成本创造自己的虚拟形象,并让虚拟形象跟着自己动起来,进行直播互动和内容生产。大大降低了普通人或商家拥有和运营属于自己的虚拟偶像的门槛。



第二个是快手特效开放平台—必扬特效平台,在这个平台上,人们可以设计和创造自己的特效玩法,发布到快手让更多人体验,并可获得平台激励。通过这个方式,短视频平台、特效创作者、特效消费者形成了一个互利共赢的生态。


CV 技术助力快手短视频智能创作,五大变化传达技术发展趋势

 

短视频 UGC 智能创作各种功能的实现大多依托于(但不仅限于)计算机视觉技术,即 CV 技术。在演讲中,万鹏飞从产业应用的角度,按照人体感知与重建技术、环境感知与重建技术、像素级语义分析、生成式技术和多模态技术这五个技术方向进行了介绍。

 

人体/环境感知与重建技术:感知和重建是智能创作的重要前提,也是 CV 领域的重要课题。主要包括点/框检测、物体/场景识别、动作捕捉、VO/SLAM、3D 重建等,这些基础 CV 技术有力保障了快手用户的创作体验。




像素级语义分析:这方面用途最广的是分割技术,俗称抠图。除了比较常见的人像分割外,万鹏飞展示了一个快手实时天空分割的案例,不论是窗户的遮挡,还是建筑与天空的连接处,都分割得非常细腻。除各种分割抠图外,有时候也需要对画面中的其他语义信息进行分析,如深度和法线等。



生成式技术:以生成判别网络(GAN)为代表的生成式技术是近几年非常火热的课题。生成式技术除了可以做各种好玩的特效外(如“童话脸”特效),其应用已深入到智能内容创作的方方面面。例如传统的染发效果是在头发上叠加一层颜色,效果很假。用生成式技术染出来的头发,则更像是现实中实际染上去的效果。



多模态技术:现实世界中人们感受和表达信息大多是多模态的。一个短视频,不只有画面,还有声音、文本信息等,因此 UGC 智能创作也应该对多模态信息进行联合建模。在智能创作方面,多模态技术的落地场景有很多,包括为短视频配乐、配文案,图文转视频,以及文字生成画面等。


以上这些技术在实际落地中会面临很多挑战,包括如何保证算法在各种不同的机型上都能发挥最好的算法效果且保证运行流畅。如何保证用户在各种使用场景中能保证算法的鲁棒性等。这些都是 CV 技术在实际业务落地时必须考虑和解决的问题。



在演讲的最后,万鹏飞展望了短视频UGC智能创作技术未来发展的五大趋势:“首先是从单模态到多模态,利用多模态信息进行智能创作;第二,生成模型会越来越强大。生成的内容更加逼真,且生成的过程更加稳定可控;第三,内容形态走向虚实融合。虚拟与现实的边界变得模糊,混合现实技术很有前景;第四,从辅助制作到辅助创意,技术需要帮助人们解决内容创作中的创意瓶颈问题;最后,计算模式将走向云边端联合计算,强大的计算能力将为用户解锁更多更智能的创作体验”。

2021 年 6 月 22 日 15:271050

评论

发布
暂无评论
发现更多内容

云图说|数据可视化管理,搭载数据安全黑科技!华为数据安全中心,助你保障云上数据安全!

华为云开发者社区

数据安全 华为云 云图说 DSC 数据安全中心 云上数据

系统服务-技术专题-并发模型粗浅分析探讨

李浩宇/Alex

并发编程

一周信创舆情观察(4.19~4.25)

统小信uos

华为云云原生数据库GaussDB加速创新,企业核心数据上云信赖之选

华为云开发者社区

数据库 云原生 华为云 GaussDB(for openGauss) 全密态安全

站在车顶才能维权?中汽协基于区块链放“大招”!

CECBC区块链专委会

特斯拉

江西组织部干部人事综合管理平台建设,干部管理系统

13823153121

【音视频】弱网下实时视频的极限通信

Damon

音视频 视频处理 视频压缩 5月日更

面试10家公司,终入阿里,感谢大佬的Java面试进阶解析笔记

Java架构师迁哥

CrossOver for Mac 怎么用?

懒得勤快

行业洞察 | 风口上的互联网医疗,如何赢得下半场?

澳鹏Appen

人工智能 医疗方案 智能医疗 医疗AI 人工智能大数据

编曲混音必备法宝——FL三大效果器简介

奈奈的杂社

阿里内部“SpringCloudAlibaba学习宝典”全是细节讲解,从入门到入魂

Crud的程序员

Java 编程 程序员 架构 spring cloud alibaba

uni-app rtc插件集成指南及常见问题--iOS

anyRTC开发者

uni-app ios 音视频 WebRTC RTC

5.1特辑|为何显示有票你却抢不到?技术揭秘12306如何保证车票不超卖

华为云开发者社区

数据库 GaussDB(for Redis) 五一 12306 数据强一致性

区块链赋能的Web 3.0时代将是一番怎样的景象?

CECBC区块链专委会

区块链

海南新场景!数字人民币在三亚完成首单离岛免税购物

CECBC区块链专委会

海口免税

独具特色的臻品音库,带来更优质的听觉体验

百度大脑

人工智能 独具特色

区块链技术赋能不动产登记,让群众办事更便利

CECBC区块链专委会

区块链

本科学历,杭州工作4年,三个月学习入职阿里,薪资涨幅达到50%

比伯

Java 编程 程序员 架构 计算机

000 ES suggest-英文

小林-1025

es7

【Java面试】30个 Java 集合面试必备的问题和答案 ​

Java架构师迁哥

复习一周 成功拿到字节Offer 我也惊呆了

学Java关注我

Java 面试 程序人生 编程语言 计算机

智能创作平台全新升级,助力开启智能媒体新时代

百度大脑

人工智能 智能创作

anyRTC 音视频 uni 插件集成步骤

anyRTC开发者

uni-app android 音视频 WebRTC sdk

阿里云 ARMS 3.0 重磅发布云拨测,Gartner APM 魔力象限产品解读

阿里巴巴中间件

阿里云 Gartner 可观测

干了八年的阿里面试官,给大家分享我面试时最爱问的Java面试题

Java架构师迁哥

音频技术及行业的发展

Emotion

音频技术

Rust从0到1-集合-Vector

rust 集合 Collections vecotr

领域驱动设计(DDD)在百度爱番番的实践

百度Geek说

中台 微服务 领域驱动设计DDD

从字节跳动到火山引擎(一) | Redis 云原生实践

redis 字节跳动 Kubernetes 云原生 火山引擎

击破行业痛点,区块链赋能智慧物流高速发展

CECBC区块链专委会

区块链

聊一下 Mesh 数据平面 Sidecar 与 Service 通信的那些事儿

聊一下 Mesh 数据平面 Sidecar 与 Service 通信的那些事儿

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势-InfoQ