【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

当 AI 遇见创作,会碰撞出怎样的火花?

  • 2021-09-19
  • 本文字数:3590 字

    阅读完需:约 12 分钟

当AI遇见创作,会碰撞出怎样的火花?

你一定见到过抖音有趣的互动特效,比如曾经的“甩狗头”、“控雨术”,如今的地标 AR 打卡等。贴合人体轮廓,准确识别特征,即时响应动作……这些技术能力你可能不会注意,但你一定对丝滑的体验和丰富有趣的玩法有所感受。


基于广泛的影响力,抖音背后的技术能力吸引了不少关注。AI 算法,在抖音背后的智能互动特效和智能视频编辑中起到了非常重要的作用。如何拥有抖音同款能力?如何能够让音视频产品能力促进业务增长?


抖音背后的技术支持平台火山引擎,在金秋 9 月举办系列增长沙龙,先后落地上海、深圳和北京,从技术、产品、应用和体验四大维度,剖析“智能互动特效和智能视频编辑”推动泛娱乐行业业务增长的逻辑。在北京站沙龙现场,我们看到了抖音产品逻辑、生态建设和技术能力的冰山一角。

不是再造一个“抖音”

2021 年 6 月,火山引擎在首次品牌发布会上,宣布将字节跳动积累的推荐算法、数据分析和人工智能等核心技术,通过火山引擎开放给企业客户。抖音同款技术能力的吸引力,引发业内热议。



在火山引擎增长沙龙北京站,火山引擎 AI 解决方案负责人骆怡航表示:火山引擎已经开放的支撑抖音的技术能力,并不是帮企业再造一个抖音,而是希望让企业通过运用抖音同款技术能力,在自己的企业应用中搭建互动场景。


目前,火山引擎作为字节跳动的企业级技术服务平台,AI 产品线以 AI 中台为底座,提供包括视觉、语音等八项基础能力,支撑上层智能体验套件,在产品层提出面向各行业的音视频解决方案,已经对外推出了 AI 大数据和视频云等产品,服务于金融证券、手机、汽车等行业。在内容创作方面,抖音和剪映已经成为上述技术能力名副其实的“代言人”。直播和短视频颠覆了内容创作的输入和输出方式,不止在泛娱乐行业,提高内容生产者和消费者身份转换频率,为行业提供优质的内容呈现方式。


在分享中,骆怡航多次提到了生态建设,他认为,提供技术产品仅仅搭建了当前场景,一个强大的生态可以持续激发产品创新。建立生态,滋养创意孵化。相比再“造”一个抖音,根据不同行业和具体的场景,建设因地制宜的内容生态,更有利于抖音同款能力展现最大化。

“抖音式”增长

那么如何拥有抖音同款能力?火山引擎提供了工具——智能创作套件。火山引擎智能互动特效总监范青谈道:“我们目前看到的两个最重要的视频生产方式就是直播和短视频,让消费者更容易进行开播,更容易进行内容的生产,是我们现在的产品需要做的事情,我们叫做智能创作的套件。” 



产品迭代跟着用户需求走,音视频的玩法随之多样。以美颜产品为例,审美趋势的改变让美颜产品的功能越来越细,超过 40 个调整维度反而让用户的使用门槛提高。为了让用户更容易上手,抖音产品开始调整产品方向为自动化优化,包括部分特征的保留和 AI 算法下的画质清晰稳定。如今,这些功能在智能创作套件上都有所体现。


火山引擎智能互动特效总监范青提出了深耕场景、数据驱动和落地为先,这意味着抖音互动特效需要做好场景适配、工程优化和特殊场景的落地,代表着抖音背后的技术积累,如近、中、远距离场景的算法灵敏度、低中高芯片的适配等。


在 AI 算法上,火山引擎做到了算法适配、工程优化和场景落地,其中,算法方面会针对近中远距离、全身半身、横竖屏、室内室外光照、实时非实时分别适配;工程优化方面会适配中低端芯片,提升机型覆盖率,移动端大屏主机端,平台模型差异化;场景落地方面,会基于场景解决垂直问题,如电商试穿试戴稳定性的关联等。


在特效引擎方面,火山引擎技术能力可以实现对 App、小程序、浏览器等多平台的支持,提供 CG 级特效玩法加速落地移动终端、GAN 类特效提升生产周期,以及持续发力攻克低端机型瓶颈。目前积累的智能特效包括 GAN、美妆、美颜、美体、贴纸特效、图像处理、虚拟形象等。在特效内容方面,火山引擎提供统一的特效素材平台管理、线上爆款监控以及商业务拓展收入空间等服务,通过持续上新特效玩法和更新工具,帮助内容生产者提高生产效率,进而完善内容生态。


“一个生态的形成,生产者和消费者之间的平衡、生产者的活跃度是内容生态最重要的部分。”范青表示,推荐算法落地的土壤是足够丰富的内容,只依赖 PGC 撑起内容丰富度有很大瓶颈。直播和短视频相较于图文,可以在单位时间内带来更多信息量,也更容易提高信息的被吸收程度。无论是 UGC 用户还是 PGC 用户,都有可能随时转换身份。“抖音式”增长就在用户身份在生产者和消费者之间转化的时候发生。



值得注意的是,版权问题是音视频行业如今广受关注的话题。在内容生产的链路中,内容形式有文字、图片和视频等,要求平台解决相应的版权问题。火山引擎智能视频编辑解决方案总监郭沣仪表示,AI 技术在内容层面提升创作效率的能力,火山引擎在这个层面解决了所有内容端的能力建设,也在持续解决版权问题。 



创维高级产品经理刘熙桐带来了火山引擎技术能力在创维的实践经验。她谈到,大屏电视行业已经步入了存量市场争夺的时代,中国电视行业已经从早期的基于硬件做性能优化,过渡到以内容生态和用户体验为核心的强交互时期。用户需求的大屏电视不只是电视基础功能,而是希望能够给生活带来更多改变。


在刘熙桐看来,当前大屏电视行业面临硬件趋同性严重、场景少、玩法少、交互体验有待进一步加强的现状,创维的应对方式是:多模态的人机交互,支持体感、手感、语音等交互方式;更多样的应用服务,借助人工智能与云计算等技术,实现大屏游戏、互动健身、视频通话、远程会议等服务。“数据集是骗不了人的”。在她看来,火山引擎在内容层面和技术层面的积累上有较大优势,工程优化效果和算法稳定性比较高。


“同样是屏幕,手机上能实现的,电视大屏也能实现。”刘熙桐表示。

非线形编辑器改变音视频创作方式

音视频智能编辑方式深入到生活中的方方面面,给人一种如今便捷的编辑方式的存在向来如此的错觉。事实并非如此。在传统的电影胶片存储音视频时代,当需要对内容进行编辑的时候,必须将胶片剪开再拼接上,才能完成剪辑工作。这种剪辑方式对原始胶片的改变是破坏性的,对使用者而言也十分不便。


这种编辑方式被称为线性编辑。如今,火山引擎提供的智能视频编辑方式为非线性编辑,可以实现多轨道、多端、协同进行视频编辑。所谓非线形编辑,指的是随着技术的发展,数字媒体时代的数字化存储音视频方式,通过计算机或者 App 随时可以对数字媒体素材进行剪辑工作,不会对原始资源产生破坏性改变。



字节跳动非线性编辑器(Non-linear edit)简称 NLE,是字节跳动团队推出的音视频编辑中间件,为音视频创作产品提供更加便捷的操作 API 和统一的草稿数据格式,在集成剪辑原子能力的基础上提供操作记录恢复等能力。据火山引擎智能视频编辑高级研发经理 Heaven 介绍,基于 NLE,用户可以方便地进行多端、多产品音视频作品二次创作和协同创作。


据他介绍,字节跳动非线形编辑器的优势在于:

  • 核心引擎经过亿级 DAU 产品验证,性能、稳定性可靠

  • 数据驱动模型设计,更轻量级接口调用,业务实现不费力

  • 原生撤销 / 重做 (redo/undo) 能力支持,省去业务方实现麻烦

  • 可扩展草稿协议,跨平台存储 / 恢复,轻松实现多端、多业务草稿打通和功能升级


Heaven 称,只要掌握 NLEModel、NLETrack、NLETrackSlot、NLESegment、NLEResourceNode 这 5 种数据模型,就可以通过不同组合,打造不同的复杂场景。



“NLEModel 可以理解为最外层的容器,我们在这个容器下进行一些模型的组合,在 Model 里面可以添加不同的轨道,也就是 NLETrack。在 Track 之内又可以添加视频片断,这个片断就是 TrackSlot。一条轨道是一个时间轴,不同的时间片断之内可能会承载不同的内容。NLETrackSlot 定义这个时间轴上的时间片断,比如 0 到 5 秒钟,通过 NLEsegment 和 Resoun 定义承载的信息。”他进一步解释。


传统的数据驱动模型,以事件或者命令驱动,通常先定好策略和接口功能的设定,调用方通过事件和命令进行调用,在现在来看就比较繁琐,也不利于拓展。因为一旦涉及增加功能,就会涉及很多改动。Heaven 谈到,基于这种考虑,火山引擎制定了一种数据驱动模型范式,不再定义功能,而是通过定义五种数据模型来进行组合和配置的使用,通过业务方向进行排列组合进而实现不同的功能,不仅解决了拓展性的问题,还解决的存储的问题,可以更方便的实现 redo/undo 的功能。


Heaven 谈到,对数据模型的封装,最终目的是为了简化字节跳动非线性编辑器 SDK 的使用方式,尽管目前已经做了很大程度上的简化,但真正实现复杂的编辑器,还是需要做非常多的工作。“我们下一步或者正在做的,是对更上层的业务组件进行封装,比如轨道编辑器,你可以直接拿到组件集成到你的产品里。我们会提供一些 UI 定制化的能力,针对不同客户的诉求提供不同层级的接入能力,还会结合 AI 的云服务和云渲染等比较高级的能力,提供更加智能化的创作能力,以及精品内容的生产消费能力。”Heaven 称,构建完整的服务体系,真正提供一站式解决方案,是火山引擎下一步想要实现的事情。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-09-19 12:004895

评论

发布
暂无评论
发现更多内容

数据擘画资产全景 AI诊断故障真因

用友BIP

都想成为架构师,那架构师需要掌握哪些知识体系呢?

做梦都在改BUG

GitHub开源几分钟被下架!神作《Spring Boot实战项目》竟昙花一现

做梦都在改BUG

Java 微服务 Spring Boot 框架

火山引擎A/B测试产品——DataTester 私有化架构分享

字节跳动数据平台

私有化部署 ab测试 A/B 测试 企业号 3 月 PK 榜

熹微~~~基于Vue开发的昏暗风格的响应式网页!

京茶吉鹿

前端 项目 vue cli

数据丢失不用怕,火山引擎DataLeap 提供排查解决方案

字节跳动数据平台

大数据 数据治理 数据研发 企业号 3 月 PK 榜

审计录像是什么意思?堡垒机有审计录像功能吗?

行云管家

堡垒机 审计 审计日志 审计录像

用友BIP智能财务,助力企业构建世界一流预算管理体系

用友BIP

全面预算

微服务架构中的链路超时分析

做梦都在改BUG

Java 架构 微服务

TiDB Operator常见问题和解决步骤(一)

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 故障排查/诊断

TiDB Operator常见问题和解决步骤(二)

TiDB 社区干货传送门

故障排查/诊断

bytebase让你爱上tidb的开源审核神器。

TiDB 社区干货传送门

6.x 实践

2023年最新美团、字节、阿里、腾讯 Java 面经,已拿 offer(附面经分享)

采菊东篱下

Java 面试

软件测试/测试开发丨移动端App自动化之App控件定位

测试人

软件测试 自动化测试 测试开发

和细胞一样优雅的 TiDB Region 设计

TiDB 社区干货传送门

TiDB 底层架构

〖产品思维训练白宝书 - 认知篇①〗- 产品思维能够为我们带来多大的价值?

哈哥撩编程

产品经理 产品思维

2023年广州堡垒机采购选哪家好?咨询电话多少?

行云管家

等保 堡垒机 等级保护 广州

Hologres技术揭秘:JSON半结构化数据的极致分析性能

阿里技术

json 半结构化数据

软件测试/测试开发丨利用 pytest 玩转数据驱动测试框架

测试人

软件测试 自动化测试 测试开发 pytest

龙蜥 Node.js/WebAssembly SIG 重磅发布 Node.js/Noslate 性能优化白皮书

OpenAnolis小助手

node.js Web 白皮书 龙蜥社区 sig

HummerRisk 使用教程: 多云检测

HummerCloud

云安全

TiDB 数据库大版本升级-基于TiCDC异机升级

TiDB 社区干货传送门

迁移 版本升级

基于TiDB+Flink实现的滑动窗口实时累计指标算法

TiDB 社区干货传送门

应用适配 HTAP 场景实践 大数据场景实践 实时数仓场景实践 OLTP 场景实践

GitHub开源2小时Star破10万,阿里Java高并发集合手册终是被公开

做梦都在改BUG

Java 高并发 集合框架

飞针测试的流程有哪些?华秋一文告诉你

华秋电子

TiDB × 阿里云试用体验(随迟但到)

TiDB 社区干货传送门

版本测评

DTALK直播预约 | 数据资产管理:金融机构数据价值释放的必经之路

袋鼠云数栈

数据资产管理

ElasticSearch 拼音搜索自定义扩展插件(长拼音序列)

alexgaoyh

中文分词 分词 Elastic Search 自定义插件

利用自动化平台可以做的那亿点事 |得物技术

得物技术

自动化

集群3副本丢失2副本-unsafe-recover

TiDB 社区干货传送门

实践案例 管理与运维 6.x 实践

基于TiDB Binlog架构的主备集群部署及数据同步操作手册

TiDB 社区干货传送门

管理与运维

当AI遇见创作,会碰撞出怎样的火花?_AI&大模型_张俊宝_InfoQ精选文章