QCon上海站购票倒计时最后3天!查看精彩日程 了解详情
写点什么

当 AI 遇见创作,会碰撞出怎样的火花?

2021 年 9 月 19 日

当AI遇见创作,会碰撞出怎样的火花?

你一定见到过抖音有趣的互动特效,比如曾经的“甩狗头”、“控雨术”,如今的地标 AR 打卡等。贴合人体轮廓,准确识别特征,即时响应动作……这些技术能力你可能不会注意,但你一定对丝滑的体验和丰富有趣的玩法有所感受。


基于广泛的影响力,抖音背后的技术能力吸引了不少关注。AI 算法,在抖音背后的智能互动特效和智能视频编辑中起到了非常重要的作用。如何拥有抖音同款能力?如何能够让音视频产品能力促进业务增长?


抖音背后的技术支持平台火山引擎,在金秋 9 月举办系列增长沙龙,先后落地上海、深圳和北京,从技术、产品、应用和体验四大维度,剖析“智能互动特效和智能视频编辑”推动泛娱乐行业业务增长的逻辑。在北京站沙龙现场,我们看到了抖音产品逻辑、生态建设和技术能力的冰山一角。

不是再造一个“抖音”

2021 年 6 月,火山引擎在首次品牌发布会上,宣布将字节跳动积累的推荐算法、数据分析和人工智能等核心技术,通过火山引擎开放给企业客户。抖音同款技术能力的吸引力,引发业内热议。



在火山引擎增长沙龙北京站,火山引擎 AI 解决方案负责人骆怡航表示:火山引擎已经开放的支撑抖音的技术能力,并不是帮企业再造一个抖音,而是希望让企业通过运用抖音同款技术能力,在自己的企业应用中搭建互动场景。


目前,火山引擎作为字节跳动的企业级技术服务平台,AI 产品线以 AI 中台为底座,提供包括视觉、语音等八项基础能力,支撑上层智能体验套件,在产品层提出面向各行业的音视频解决方案,已经对外推出了 AI 大数据和视频云等产品,服务于金融证券、手机、汽车等行业。在内容创作方面,抖音和剪映已经成为上述技术能力名副其实的“代言人”。直播和短视频颠覆了内容创作的输入和输出方式,不止在泛娱乐行业,提高内容生产者和消费者身份转换频率,为行业提供优质的内容呈现方式。


在分享中,骆怡航多次提到了生态建设,他认为,提供技术产品仅仅搭建了当前场景,一个强大的生态可以持续激发产品创新。建立生态,滋养创意孵化。相比再“造”一个抖音,根据不同行业和具体的场景,建设因地制宜的内容生态,更有利于抖音同款能力展现最大化。

“抖音式”增长

那么如何拥有抖音同款能力?火山引擎提供了工具——智能创作套件。火山引擎智能互动特效总监范青谈道:“我们目前看到的两个最重要的视频生产方式就是直播和短视频,让消费者更容易进行开播,更容易进行内容的生产,是我们现在的产品需要做的事情,我们叫做智能创作的套件。” 



产品迭代跟着用户需求走,音视频的玩法随之多样。以美颜产品为例,审美趋势的改变让美颜产品的功能越来越细,超过 40 个调整维度反而让用户的使用门槛提高。为了让用户更容易上手,抖音产品开始调整产品方向为自动化优化,包括部分特征的保留和 AI 算法下的画质清晰稳定。如今,这些功能在智能创作套件上都有所体现。


火山引擎智能互动特效总监范青提出了深耕场景、数据驱动和落地为先,这意味着抖音互动特效需要做好场景适配、工程优化和特殊场景的落地,代表着抖音背后的技术积累,如近、中、远距离场景的算法灵敏度、低中高芯片的适配等。


在 AI 算法上,火山引擎做到了算法适配、工程优化和场景落地,其中,算法方面会针对近中远距离、全身半身、横竖屏、室内室外光照、实时非实时分别适配;工程优化方面会适配中低端芯片,提升机型覆盖率,移动端大屏主机端,平台模型差异化;场景落地方面,会基于场景解决垂直问题,如电商试穿试戴稳定性的关联等。


在特效引擎方面,火山引擎技术能力可以实现对 App、小程序、浏览器等多平台的支持,提供 CG 级特效玩法加速落地移动终端、GAN 类特效提升生产周期,以及持续发力攻克低端机型瓶颈。目前积累的智能特效包括 GAN、美妆、美颜、美体、贴纸特效、图像处理、虚拟形象等。在特效内容方面,火山引擎提供统一的特效素材平台管理、线上爆款监控以及商业务拓展收入空间等服务,通过持续上新特效玩法和更新工具,帮助内容生产者提高生产效率,进而完善内容生态。


“一个生态的形成,生产者和消费者之间的平衡、生产者的活跃度是内容生态最重要的部分。”范青表示,推荐算法落地的土壤是足够丰富的内容,只依赖 PGC 撑起内容丰富度有很大瓶颈。直播和短视频相较于图文,可以在单位时间内带来更多信息量,也更容易提高信息的被吸收程度。无论是 UGC 用户还是 PGC 用户,都有可能随时转换身份。“抖音式”增长就在用户身份在生产者和消费者之间转化的时候发生。



值得注意的是,版权问题是音视频行业如今广受关注的话题。在内容生产的链路中,内容形式有文字、图片和视频等,要求平台解决相应的版权问题。火山引擎智能视频编辑解决方案总监郭沣仪表示,AI 技术在内容层面提升创作效率的能力,火山引擎在这个层面解决了所有内容端的能力建设,也在持续解决版权问题。 



创维高级产品经理刘熙桐带来了火山引擎技术能力在创维的实践经验。她谈到,大屏电视行业已经步入了存量市场争夺的时代,中国电视行业已经从早期的基于硬件做性能优化,过渡到以内容生态和用户体验为核心的强交互时期。用户需求的大屏电视不只是电视基础功能,而是希望能够给生活带来更多改变。


在刘熙桐看来,当前大屏电视行业面临硬件趋同性严重、场景少、玩法少、交互体验有待进一步加强的现状,创维的应对方式是:多模态的人机交互,支持体感、手感、语音等交互方式;更多样的应用服务,借助人工智能与云计算等技术,实现大屏游戏、互动健身、视频通话、远程会议等服务。“数据集是骗不了人的”。在她看来,火山引擎在内容层面和技术层面的积累上有较大优势,工程优化效果和算法稳定性比较高。


“同样是屏幕,手机上能实现的,电视大屏也能实现。”刘熙桐表示。

非线形编辑器改变音视频创作方式

音视频智能编辑方式深入到生活中的方方面面,给人一种如今便捷的编辑方式的存在向来如此的错觉。事实并非如此。在传统的电影胶片存储音视频时代,当需要对内容进行编辑的时候,必须将胶片剪开再拼接上,才能完成剪辑工作。这种剪辑方式对原始胶片的改变是破坏性的,对使用者而言也十分不便。


这种编辑方式被称为线性编辑。如今,火山引擎提供的智能视频编辑方式为非线性编辑,可以实现多轨道、多端、协同进行视频编辑。所谓非线形编辑,指的是随着技术的发展,数字媒体时代的数字化存储音视频方式,通过计算机或者 App 随时可以对数字媒体素材进行剪辑工作,不会对原始资源产生破坏性改变。



字节跳动非线性编辑器(Non-linear edit)简称 NLE,是字节跳动团队推出的音视频编辑中间件,为音视频创作产品提供更加便捷的操作 API 和统一的草稿数据格式,在集成剪辑原子能力的基础上提供操作记录恢复等能力。据火山引擎智能视频编辑高级研发经理 Heaven 介绍,基于 NLE,用户可以方便地进行多端、多产品音视频作品二次创作和协同创作。


据他介绍,字节跳动非线形编辑器的优势在于:

  • 核心引擎经过亿级 DAU 产品验证,性能、稳定性可靠

  • 数据驱动模型设计,更轻量级接口调用,业务实现不费力

  • 原生撤销 / 重做 (redo/undo) 能力支持,省去业务方实现麻烦

  • 可扩展草稿协议,跨平台存储 / 恢复,轻松实现多端、多业务草稿打通和功能升级


Heaven 称,只要掌握 NLEModel、NLETrack、NLETrackSlot、NLESegment、NLEResourceNode 这 5 种数据模型,就可以通过不同组合,打造不同的复杂场景。



“NLEModel 可以理解为最外层的容器,我们在这个容器下进行一些模型的组合,在 Model 里面可以添加不同的轨道,也就是 NLETrack。在 Track 之内又可以添加视频片断,这个片断就是 TrackSlot。一条轨道是一个时间轴,不同的时间片断之内可能会承载不同的内容。NLETrackSlot 定义这个时间轴上的时间片断,比如 0 到 5 秒钟,通过 NLEsegment 和 Resoun 定义承载的信息。”他进一步解释。


传统的数据驱动模型,以事件或者命令驱动,通常先定好策略和接口功能的设定,调用方通过事件和命令进行调用,在现在来看就比较繁琐,也不利于拓展。因为一旦涉及增加功能,就会涉及很多改动。Heaven 谈到,基于这种考虑,火山引擎制定了一种数据驱动模型范式,不再定义功能,而是通过定义五种数据模型来进行组合和配置的使用,通过业务方向进行排列组合进而实现不同的功能,不仅解决了拓展性的问题,还解决的存储的问题,可以更方便的实现 redo/undo 的功能。


Heaven 谈到,对数据模型的封装,最终目的是为了简化字节跳动非线性编辑器 SDK 的使用方式,尽管目前已经做了很大程度上的简化,但真正实现复杂的编辑器,还是需要做非常多的工作。“我们下一步或者正在做的,是对更上层的业务组件进行封装,比如轨道编辑器,你可以直接拿到组件集成到你的产品里。我们会提供一些 UI 定制化的能力,针对不同客户的诉求提供不同层级的接入能力,还会结合 AI 的云服务和云渲染等比较高级的能力,提供更加智能化的创作能力,以及精品内容的生产消费能力。”Heaven 称,构建完整的服务体系,真正提供一站式解决方案,是火山引擎下一步想要实现的事情。

2021 年 9 月 19 日 12:003862

评论

发布
暂无评论
发现更多内容

5G点亮工业革命前,2021需要持续点亮5G

脑极体

第四周作业

Geek_72d5ab

第四周学习心得

Trigger

极客时间 产品经理训练营

【得物技术】走进Web3D的世界(1) 画个立方体吧

得物技术

html html5 js WebGL 得物技术

ZEGO全新语音聊天室方案,2小时复刻 Clubhouse

ZEGO即构

你看那个程序员,每年升职加薪,日赚3千

谙忆

极客大学·产品训练营·第三章作业(第四周)

二大爷

极客大学 极客大学产品经理训练营 产品训练营

话题讨论 | 如何获得令人心动的前端offer

魔王哪吒

程序员 面试 前端 话题讨论 二月春节不断更

正确面对倦怠感,提升职场战斗力

boshi

职场成长 七日更

认识 Java 中的队列:Vector、ArrayList、CopyOnWriteArrayList、SynchronizedList

看山

Java 线程安全

深入了解gradle和maven的区别

程序那些事

maven Gradle 程序那些事 构建工具

抽奖小程序-活动发布用例分析及流程图

思亭

流媒体传输协议之 RTP(下篇)

阿里云视频云

音视频 流媒体 rtp

【STM32】0.96寸OLED显示屏(7针SPI协议)软件模拟SPI

AXYZdong

硬件 stm32 2月春节不断更

0期产品训练营第四周作业-学情周报用例

skylar

你真的了解 sync.Mutex吗

Leo叔叔

Go mutex Go Concurrency Patterns

从“乌鸡”到5G,不仅仅是谐音梗

脑极体

第四周作业-核销优惠券用例

隋泽

产品经理训练营

UC01 用户 购买课程

克比

Spring中经典的9种设计模式,一定要记牢

Crud的程序员

spring 程序员 架构 设计模式

「产品经理训练营」作业 04:知识星球加入星球用例

狷介

产品经理训练营

产品训练营 - 第四周 - 作业

邹小胖

产品训练营

第四章作业

Rui

日记 2021年2月10日(周三)

Changing Lin

2月春节不断更

Java容器--2021面试题系列教程(附答案解析)--大白话解读--JavaPub版本

JavaPub

Java 面试 hashmap javapub

马斯克说狗币牛逼,我说idea插件助你盯盘摸鱼

滑板上的老砒霜

比特币 idea插件 Android开发

话题讨论 | 你是不是一个特别容易被说服的人?

石云升

话题讨论 2月春节不断更

5. Python 循环的本质就是一段代码懒得重复写

梦想橡皮擦

Python Python Monad 2月春节不断更 python入门

产品经理训练营笔记 - 业务流程与产品文档(二)

.nil?

产品经理训练营

区分重载和重写,轻松掌握 Java 多态

飞天小牛肉

Java 程序员 面试 后端 2月春节不断更

产品经理 - 第三周作业

LLL777

当AI遇见创作,会碰撞出怎样的火花?-InfoQ