写点什么

当 AI 遇见创作,会碰撞出怎样的火花?

  • 2021-09-19
  • 本文字数:3590 字

    阅读完需:约 12 分钟

当AI遇见创作,会碰撞出怎样的火花?

你一定见到过抖音有趣的互动特效,比如曾经的“甩狗头”、“控雨术”,如今的地标 AR 打卡等。贴合人体轮廓,准确识别特征,即时响应动作……这些技术能力你可能不会注意,但你一定对丝滑的体验和丰富有趣的玩法有所感受。


基于广泛的影响力,抖音背后的技术能力吸引了不少关注。AI 算法,在抖音背后的智能互动特效和智能视频编辑中起到了非常重要的作用。如何拥有抖音同款能力?如何能够让音视频产品能力促进业务增长?


抖音背后的技术支持平台火山引擎,在金秋 9 月举办系列增长沙龙,先后落地上海、深圳和北京,从技术、产品、应用和体验四大维度,剖析“智能互动特效和智能视频编辑”推动泛娱乐行业业务增长的逻辑。在北京站沙龙现场,我们看到了抖音产品逻辑、生态建设和技术能力的冰山一角。

不是再造一个“抖音”

2021 年 6 月,火山引擎在首次品牌发布会上,宣布将字节跳动积累的推荐算法、数据分析和人工智能等核心技术,通过火山引擎开放给企业客户。抖音同款技术能力的吸引力,引发业内热议。



在火山引擎增长沙龙北京站,火山引擎 AI 解决方案负责人骆怡航表示:火山引擎已经开放的支撑抖音的技术能力,并不是帮企业再造一个抖音,而是希望让企业通过运用抖音同款技术能力,在自己的企业应用中搭建互动场景。


目前,火山引擎作为字节跳动的企业级技术服务平台,AI 产品线以 AI 中台为底座,提供包括视觉、语音等八项基础能力,支撑上层智能体验套件,在产品层提出面向各行业的音视频解决方案,已经对外推出了 AI 大数据和视频云等产品,服务于金融证券、手机、汽车等行业。在内容创作方面,抖音和剪映已经成为上述技术能力名副其实的“代言人”。直播和短视频颠覆了内容创作的输入和输出方式,不止在泛娱乐行业,提高内容生产者和消费者身份转换频率,为行业提供优质的内容呈现方式。


在分享中,骆怡航多次提到了生态建设,他认为,提供技术产品仅仅搭建了当前场景,一个强大的生态可以持续激发产品创新。建立生态,滋养创意孵化。相比再“造”一个抖音,根据不同行业和具体的场景,建设因地制宜的内容生态,更有利于抖音同款能力展现最大化。

“抖音式”增长

那么如何拥有抖音同款能力?火山引擎提供了工具——智能创作套件。火山引擎智能互动特效总监范青谈道:“我们目前看到的两个最重要的视频生产方式就是直播和短视频,让消费者更容易进行开播,更容易进行内容的生产,是我们现在的产品需要做的事情,我们叫做智能创作的套件。” 



产品迭代跟着用户需求走,音视频的玩法随之多样。以美颜产品为例,审美趋势的改变让美颜产品的功能越来越细,超过 40 个调整维度反而让用户的使用门槛提高。为了让用户更容易上手,抖音产品开始调整产品方向为自动化优化,包括部分特征的保留和 AI 算法下的画质清晰稳定。如今,这些功能在智能创作套件上都有所体现。


火山引擎智能互动特效总监范青提出了深耕场景、数据驱动和落地为先,这意味着抖音互动特效需要做好场景适配、工程优化和特殊场景的落地,代表着抖音背后的技术积累,如近、中、远距离场景的算法灵敏度、低中高芯片的适配等。


在 AI 算法上,火山引擎做到了算法适配、工程优化和场景落地,其中,算法方面会针对近中远距离、全身半身、横竖屏、室内室外光照、实时非实时分别适配;工程优化方面会适配中低端芯片,提升机型覆盖率,移动端大屏主机端,平台模型差异化;场景落地方面,会基于场景解决垂直问题,如电商试穿试戴稳定性的关联等。


在特效引擎方面,火山引擎技术能力可以实现对 App、小程序、浏览器等多平台的支持,提供 CG 级特效玩法加速落地移动终端、GAN 类特效提升生产周期,以及持续发力攻克低端机型瓶颈。目前积累的智能特效包括 GAN、美妆、美颜、美体、贴纸特效、图像处理、虚拟形象等。在特效内容方面,火山引擎提供统一的特效素材平台管理、线上爆款监控以及商业务拓展收入空间等服务,通过持续上新特效玩法和更新工具,帮助内容生产者提高生产效率,进而完善内容生态。


“一个生态的形成,生产者和消费者之间的平衡、生产者的活跃度是内容生态最重要的部分。”范青表示,推荐算法落地的土壤是足够丰富的内容,只依赖 PGC 撑起内容丰富度有很大瓶颈。直播和短视频相较于图文,可以在单位时间内带来更多信息量,也更容易提高信息的被吸收程度。无论是 UGC 用户还是 PGC 用户,都有可能随时转换身份。“抖音式”增长就在用户身份在生产者和消费者之间转化的时候发生。



值得注意的是,版权问题是音视频行业如今广受关注的话题。在内容生产的链路中,内容形式有文字、图片和视频等,要求平台解决相应的版权问题。火山引擎智能视频编辑解决方案总监郭沣仪表示,AI 技术在内容层面提升创作效率的能力,火山引擎在这个层面解决了所有内容端的能力建设,也在持续解决版权问题。 



创维高级产品经理刘熙桐带来了火山引擎技术能力在创维的实践经验。她谈到,大屏电视行业已经步入了存量市场争夺的时代,中国电视行业已经从早期的基于硬件做性能优化,过渡到以内容生态和用户体验为核心的强交互时期。用户需求的大屏电视不只是电视基础功能,而是希望能够给生活带来更多改变。


在刘熙桐看来,当前大屏电视行业面临硬件趋同性严重、场景少、玩法少、交互体验有待进一步加强的现状,创维的应对方式是:多模态的人机交互,支持体感、手感、语音等交互方式;更多样的应用服务,借助人工智能与云计算等技术,实现大屏游戏、互动健身、视频通话、远程会议等服务。“数据集是骗不了人的”。在她看来,火山引擎在内容层面和技术层面的积累上有较大优势,工程优化效果和算法稳定性比较高。


“同样是屏幕,手机上能实现的,电视大屏也能实现。”刘熙桐表示。

非线形编辑器改变音视频创作方式

音视频智能编辑方式深入到生活中的方方面面,给人一种如今便捷的编辑方式的存在向来如此的错觉。事实并非如此。在传统的电影胶片存储音视频时代,当需要对内容进行编辑的时候,必须将胶片剪开再拼接上,才能完成剪辑工作。这种剪辑方式对原始胶片的改变是破坏性的,对使用者而言也十分不便。


这种编辑方式被称为线性编辑。如今,火山引擎提供的智能视频编辑方式为非线性编辑,可以实现多轨道、多端、协同进行视频编辑。所谓非线形编辑,指的是随着技术的发展,数字媒体时代的数字化存储音视频方式,通过计算机或者 App 随时可以对数字媒体素材进行剪辑工作,不会对原始资源产生破坏性改变。



字节跳动非线性编辑器(Non-linear edit)简称 NLE,是字节跳动团队推出的音视频编辑中间件,为音视频创作产品提供更加便捷的操作 API 和统一的草稿数据格式,在集成剪辑原子能力的基础上提供操作记录恢复等能力。据火山引擎智能视频编辑高级研发经理 Heaven 介绍,基于 NLE,用户可以方便地进行多端、多产品音视频作品二次创作和协同创作。


据他介绍,字节跳动非线形编辑器的优势在于:

  • 核心引擎经过亿级 DAU 产品验证,性能、稳定性可靠

  • 数据驱动模型设计,更轻量级接口调用,业务实现不费力

  • 原生撤销 / 重做 (redo/undo) 能力支持,省去业务方实现麻烦

  • 可扩展草稿协议,跨平台存储 / 恢复,轻松实现多端、多业务草稿打通和功能升级


Heaven 称,只要掌握 NLEModel、NLETrack、NLETrackSlot、NLESegment、NLEResourceNode 这 5 种数据模型,就可以通过不同组合,打造不同的复杂场景。



“NLEModel 可以理解为最外层的容器,我们在这个容器下进行一些模型的组合,在 Model 里面可以添加不同的轨道,也就是 NLETrack。在 Track 之内又可以添加视频片断,这个片断就是 TrackSlot。一条轨道是一个时间轴,不同的时间片断之内可能会承载不同的内容。NLETrackSlot 定义这个时间轴上的时间片断,比如 0 到 5 秒钟,通过 NLEsegment 和 Resoun 定义承载的信息。”他进一步解释。


传统的数据驱动模型,以事件或者命令驱动,通常先定好策略和接口功能的设定,调用方通过事件和命令进行调用,在现在来看就比较繁琐,也不利于拓展。因为一旦涉及增加功能,就会涉及很多改动。Heaven 谈到,基于这种考虑,火山引擎制定了一种数据驱动模型范式,不再定义功能,而是通过定义五种数据模型来进行组合和配置的使用,通过业务方向进行排列组合进而实现不同的功能,不仅解决了拓展性的问题,还解决的存储的问题,可以更方便的实现 redo/undo 的功能。


Heaven 谈到,对数据模型的封装,最终目的是为了简化字节跳动非线性编辑器 SDK 的使用方式,尽管目前已经做了很大程度上的简化,但真正实现复杂的编辑器,还是需要做非常多的工作。“我们下一步或者正在做的,是对更上层的业务组件进行封装,比如轨道编辑器,你可以直接拿到组件集成到你的产品里。我们会提供一些 UI 定制化的能力,针对不同客户的诉求提供不同层级的接入能力,还会结合 AI 的云服务和云渲染等比较高级的能力,提供更加智能化的创作能力,以及精品内容的生产消费能力。”Heaven 称,构建完整的服务体系,真正提供一站式解决方案,是火山引擎下一步想要实现的事情。

2021-09-19 12:005625

评论

发布
暂无评论
发现更多内容

聊聊 Zookeeper 的 4lw 与信息安全

明哥的IT随笔

zookeeper 数据安全

ChatGPT 会在三年内终结编程吗?| 社区征文

神木鼎

三周年征文

蚂蚁安全科技 Nydus 镜像加速实践

SOFAStack

开源 镜像 镜像安全 OCI Nydus

算法题每日一练: 青蛙跳台阶

知心宝贝

数据结构 算法 前端 后端 三周年连更

区块链基础设施 NFTScan 新增支持 Aptos 网络

NFT Research

区块链+ NFT

Spring Boot 整合 Redis 基于 Stream 消息队列 实现异步秒杀下单

Java你猿哥

Java redis stream ssm 消息队列

运维报表有哪些内容?有什么用?

行云管家

运维 报表 IT运维 容器化部署

读书笔记丨远程服务调用和RESTful,如何分析和抉择?

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 4 月 PK 榜 远程服务调用

【FAQ】关于JavaScript版本的华为地图服务Map的点击事件与Marker的点击事件存在冲突的解决方案

HarmonyOS SDK

HMS Core

HashData认证云原生数据仓库管理工程师培训报名开启!

酷克数据HashData

阿里限量的性能调优+微服务+高并发设计,真的太香了!

做梦都在改BUG

Java 微服务架构 系统设计 性能调优 亿级并发

堡垒机英文是什么?有哪些品牌?

行云管家

网络安全 堡垒机

Spring Boot 整合 Redis 基于 Stream 消息队列 实现异步秒杀下单

做梦都在改BUG

ByteHouse云数仓版查询性能优化和MySQL生态完善

NineData

数据库 架构 字节跳动 Clickhouse bytehouse

Apifox WebSocket 调试功能你会用了吗?

Apifox

程序员 接口 websocket API API 调试

逆天!腾讯大神纯手撸“架构师速成手册”Github狂获4.5kstar

Java你猿哥

Java 架构 ssm 架构设计 架构师

聊聊 IP packet 的 TTL 与 tcp segment 的 MSL

明哥的IT随笔

TCP/IP TTL MSL

阿里新一代微服务,内部大佬手抄的笔记+脑图不容错过,全是精华

做梦都在改BUG

Java 架构 微服务 Spring Cloud Aliababa

人脸活体检测初识

六月的雨在InfoQ

人脸活体检测 三周年连更 人脸数据库 人脸辨识度

合合信息新推出反光消除技术,助力手写文字识别更精准

合合技术团队

人工智能 文字识别 扫描全能王 反光去除

亿级日活业务稳如磐石,华为云CodeArts PerfTest发布

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

裸辞底气!GitHub飙升“java面试笔记2023” 了解下八股文天花板

Java你猿哥

Java 面试 Spring Boot ssm 八股文

与全球开发者创新共赢,全球首个“开发者村” 正式落成

极客天地

从此脱离CRUD!Github热榜第三架构师速成手册成功颠覆了我的认知

Java你猿哥

架构 ssm 架构设计 架构师 微服务实战

一文详解多模态认知智能

华为云开发者联盟

人工智能 华为云 AIGC 华为云开发者联盟 企业号 4 月 PK 榜

从源码全面解析LinkedBlockingQueue的来龙去脉

做梦都在改BUG

本铯智能科技是家怎样的共享电动车厂家?

共享电单车厂家

共享电动车厂家 共享电单车厂商 本铯智能科技 本铯智能电动车厂家

YARN 远程代码执行(RCE)安全漏洞问题分析与解决方案

明哥的IT随笔

大数据 YARN 数据安全 RCE

Apache Flink ML 2.2.0 发布公告

阿里云大数据AI技术

大数据 算法 企业号 4 月 PK 榜

阿里技术官神作!大厂亿级流量性能调优学习手册,堪称保姆级教学

做梦都在改BUG

Java 性能优化 性能调优

那些关于DIP器件不得不说的坑

华秋PCB

插件 DIP 元器件 PCB PCB设计

当AI遇见创作,会碰撞出怎样的火花?_AI&大模型_张俊宝_InfoQ精选文章