写点什么

智能语音技术在字节跳动内容平台的演进和应用实践

  • 2021-09-08
  • 本文字数:3713 字

    阅读完需:约 12 分钟

智能语音技术在字节跳动内容平台的演进和应用实践

AI 技术正在成为辅助内容生产和传播的“利器”。尤其随着现在语音、文本、图像、视频等不同模态的信息层出不穷,以 AI 技术作为“创作工具”将为内容生产带来新变革。


以字节跳动为例,字节跳动拥有全球化的内容平台,内容形式经历了图文、音频和视频各个阶段,在这个过程中,内部对智能语音技术的需求日益增强,如有声书内容生产,短视频中的内容审核、自动字幕和配音功能等。


自 2017 年开始重点布局智能语音技术以来,该技术已广泛应用在字节跳动内部的教育、视频、小说、客服、硬件、音乐、办公、游戏、广告等业务场景。实践证明,作为新型的生产工具,智能语音技术能够极大地提升 AI 内容生产和创作领域的生产力。


在将于 11 月 5 日 - 6 日举办的 AICon 全球人工智能与机器学习大会(北京站)2021 上,字节跳动 AI-Lab 智能语音/语音合成 Leader 殷翔博士将作为“AI 与产业互联网结合”专场的讲师,


InfoQ 有幸提前对殷翔博士进行了专访,他详细介绍了智能语音技术上在字节跳动的研发进展以及应用实践,分享了智能语音赋能内容生产的思考。


以下为 InfoQ 与殷翔博士对话全文:

字节跳动的智能语音技术布局


InfoQ :殷老师您好,很高兴有机会采访您,首先请您做一下自我介绍,您自何时加入字节跳动,以及目前主要负责的工作?


殷翔: 我是 2018 年加入字节跳动人工智能实验室,负责音频生成算法团队,研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。


InfoQ:字节跳动大概是从什么时候开始布局智能语音技术的?公司内部对智能语音技术的需求主要来自哪些场景?


殷翔: 字节跳动是从 2017 年底重点投入智能语音技术的。公司对智能语音技术需求主要来自于短视频中的内容审核、自动字幕和配音功能、办公软件飞书的会议转写、客服外呼机器人的语音交互链路、教育口语评测、小说音频内容生成、教育硬件下的语音增强、音乐消重和听歌识曲、外部 ToB 需求等。


InfoQ:字节跳动如何定位智能语音技术,如何看待它在公司整体的 AI 布局中所处的位置?


殷翔: 字节跳动拥有全球化的内容平台,内容形式经历了图文、音频和视频各阶段,如何高效理解、创作、互动和分发内容,给 AI 技术带来了机遇和挑战。随着深度学习和机器算力的不断发展,智能语音技术已经迈进了端到端时代,并借助丰富场景下的海量数据,显著提升了内容理解的精度、内容创作的质量。


智能语音技术在公司整体 AI 布局中扮演的角色之一是内容创作工具,例如:通过自然语言理解、语音合成和音乐生成等技术开发的有声书内容生产,能够将番茄小说海量网文转成有声书,供用户聆听。在短视频方面,能够辅助用户通过字幕自动添加、个性化配音和滤镜玩法创造出内容丰富的作品。


InfoQ:除了您所在的团队(AILab),字节跳动内部还有哪些团队在做语音技术的研究,各部门的侧重点分别是什么,又是如何协作的?


殷翔: 字节跳动产品研发和工程架构部门也在做相关研究。AILab-智能语音属于 AI 中台,使命是做“大而全”的技术支持,对某些需要深入合作的业务部门,会专门派同学 BP,进行“精且深”的解决方案打磨。最终我们的愿景是将 AI 中台能力做成定制方案,提供 ToB。产品研发和工程架构部的语音部门需要集中支持所属部门业务方向,与业务一起成长,做到 BU 化。在协作方面,对于共有能力,会依照业务场景进行划分。对于差异化能力,会依照业务方的需求,形成组合方案,提供支持。


InfoQ:近期字节跳动在智能语音领域取得了哪些重要技术成果?


殷翔: 在语音识别方面,通过无监督预训练+少量有监督的技术,参加国际低资源多语言语音识别挑战赛(MUCS21),取得多语言语音识别赛道第二名;音乐技术方面,我们参加了 MIREX2020 翻唱识别竞赛,取得第一名,mAP 领先第二名 8%;语音合成上,我们发表了业界首个基于 seq2seq 链路的中文歌唱合成系统 ByteSing 以及搭建了 seq2seq 的中文前端多任务模型并用于线上业务;


InfoQ:端到端语音识别时代已来临,端到端识别技术近些年成为了学术界和业界研究的热点。目前,字节跳动在端到端识别算法的研究和应用进展如何?


殷翔: 我们在 RNN-T 上做了不少原创性工作,包括加速 RNN-T 的训练和推理,结合端云一体进行了多项创新,目前已将该技术上线到各类业务场景中。同时,我们还在打造下一代端到端识别算法框架,并已取得了较大的进展。


InfoQ:接下来字节跳动在语音技术领域的重点研究方向是什么;您所在的团队接下来的规划是?


殷翔: 以语音识别和合成为例。语音识别方向上,重点研究方向包括结合无监督预训练提升低资源语种的识别率、结合多模态信息的场景分类和语音识别、新一代端到端识别框架;语音合成方向上,重点研究方向包括文本到波形的端到端联合建模、低质少量的跨语种音色复刻、直播流式场景下的音色转换、多模态感知型虚拟形象等。我们团队接下来重点发展的规划,包括多语种的视频字幕和配音、多模态语音交互链路、搭建有声内容生产平台等。

智能语音广泛落地于字节跳动的内容平台


InfoQ:你们团队研发的语音技术目前在字节跳动内部的哪些场景应用?公司外部,有哪些应用场景?


殷翔: 团队研发技术落地于教育、视频、小说、客服、硬件、音乐、办公、ToB、游戏、广告等内部业务场景,主要以服务调用或 SDK 的形式使用。对于外部场景,会通过火山引擎控制台对外提供服务。


InfoQ:你们如何评估智能语音技术在各个场景的应用效果?


殷翔: 我们会通过调用量、语音处理/生成时长等纯技术指标来衡量使用情况,同时也会通过业务侧拆解出的 DAU、留存、渗透时长、效率提升等指标来衡量效果。


InfoQ:在字节跳动的内容平台由图文-音频-视频不断演进的过程中,如何看待语音技术的重要性?


殷翔: 语音技术在内容形式不断的演化过程中,可以持续通过对语音和语义的理解,来帮助平台筛选出违禁的内容。通过机器+人工的方式,大大提升审核的效率;同时,通过对语义的理解和语音/图像信号的重建,为平台提供丰富的不同模态内容,供用户消费。


InfoQ:字节跳动的语音技术在有声书合成应用场景中,有没有一些难突破的技术点,是怎样解决的?最终达到的朗读效果与真人朗读相比,还有哪些差距?


殷翔: 在有声书合成应用场景下,存在的难点主要是如何接近真人播讲的效果,使得最终的合成音频能够体现出不同角色在不同上下文环境里的效果。我们会通过小说篇章理解来将网文转换成剧本,标识出每句对话是哪个角色来读和以什么情感来读,再采用对应音色结合情感合成得到音频内容。最终的朗读效果与真人相比,差距在于无法做到根据不同上下文语境展现不同风格,只能表现出音库单一的录制风格。


InfoQ:针对有声书合成,共训练了多少种声音,是否有根据不同(年龄)人群的需要和兴趣定制更个性化的声音或者多(分)角色有感情朗读?或者是否有配合不同的书籍类型去创作不同的声音?


殷翔: 针对有声书合成共训练了 30 多种声音,我们目前根据番茄小说平台用户喜欢的头部小说,归类出头部书中最感兴趣的角色,再通过机器+人工的方式建立书中人物和音色的关系。从而让用户能够享受合适的多角色情感朗读。


InfoQ:近几年短视频非常火热,单字节跳动的短视频平台就拥有数亿日活的用户,每天会产生数量庞大的短视频,在针对短视频的二次智能创作方面,语音技术具体会进行哪些创作?用户的反馈效果如何?


殷翔: 语音技术会进行字幕添加、文字配音和模版玩法等,从而提升视频的丰富度。这很大程度上促进了用户的投稿率,成为视频工具不可或缺的功能。

智能语音技术赋能内容生产: 差异化、效果优、迭代快、低成本是未来趋势


InfoQ:与以前的视频化相比,现在已经进入了超视频化时代,内容在更多地往视频演进。超视频时代的来临,对智能语音技术在视频场景的应用带来了哪些机会和挑战?


殷翔: 机会在于我们可以面向广大用户群体提供丰富的内容创作工具,挑战则在于我们需要更理解用户,分析清楚采用何种功能能够激发他们的创作兴趣。


InfoQ:字节跳动的智能语音技术,从研究方向和落地应用来看,有哪些独特的优势?


殷翔: 我们的研究方向是结合实际落地需求和前沿学术趋势逐渐形成的,一切均围绕着如何将 AI 技术更好、更快、成本更低地落地于实际场景中来。针对落地应用,我们会 BP 到不同的业务部门,与他们的业务指标对齐,再拆解成技术指标跟进。因此,AI 中台既能够直接拿到业务收益,业务目标也可以与 AI 技术目标同步。


InfoQ:据您判断,接下来智能语音技术在 AI 内容生产和创作领域还有哪些发展趋势?


殷翔: 智能语音技术作为生产工具,是可以极大提升 AI 内容生产和创作领域的生产力的。未来行业内,一定是会围绕着差异化、效果优、迭代快、低成本等方向持续发展,借助技术的提升,不断推动 AI 产业化和规模化的进步。


采访嘉宾介绍:


殷翔博士,字节跳动 AI-Lab 智能语音/语音合成 Leader。2011 年毕业于中国科学技术大学电子工程与信息科学系,2016 于本校语音及语言信息处理国家工程实验室获得博士学位,研究方向为语音合成中的神经网络声学建模方法研究。2018 年加入字节跳动人工智能实验室,负责音频生成算法团队,研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。在各类国际语音会议和刊物中发表论文 13 篇,国内外专利 10 余篇。

2021-09-08 13:352506
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 537.0 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

数字人民币双层运营架构下缘何衍生出2.5层?看完才明白,原来这么重要!

CECBC

dubbo 2.7应用级服务发现踩坑小记

捉虫大师

dubbo 服务发现

让AI发展避开“暗礁”,索信达控股推出自研区块链+联邦学习解决方案

索信达控股

区块链 金融科技 联邦学习 金融监管 风控

透过 3.0 Preview 看 Dubbo 的云原生变革

try catch

CloudQuery 安全系列(一): Http 与 Https

BinTools图尔兹

数据库 网络安全 https 数据安全 数据库管理

数仓备机DN重建:快速修复你的数仓DN单点故障

华为云开发者联盟

数据仓库 主机 华为云 备机 DN

技术解密 |阿里云多媒体 AI 团队拿下 CVPR2021 5 冠 1 亚成绩的技术分享

阿里云视频云

阿里云 AI 计算机视觉 经验分享 CVPR

网络攻防学习笔记 Day55

穿过生命散发芬芳

网络攻防 6月日更

有没有字节工牌,Java并发安全的根本原因都得懂

慕枫技术笔记

Java 高并发

安卓工控主板显示接口有哪些呢?

双赞工控

安卓主板 工控主板 ARM开发主板

阿里最新秋招面经,腾讯/美团/字节1千道Java中高级面试题

Java 编程 程序员 架构 面试

深度学习分类任务常用评估指标

华为云开发者联盟

机器学习 深度学习

Vue Conf关于Vite的分享给我带来的启发

前端森林

vite esm Vue 3

解密开源技术的污点

WorkPlus

5W1H聊开源之Who和How——谁、如何参与开源?

禅道项目管理

开源 开源文化

Windows 11 这项亮点功能源自英特尔Bridge技术支持

E科讯

在北鲲云超算平台上做球体落入水中的流固耦合仿真模拟记录

北鲲云

社群编码识别黑灰产攻击实践

百度Geek说

多路三线RTD电阻温度采集电路设计方案

不脱发的程序猿

电路设计 硬件开发 RTD电阻 温度采集电路

存储大师班:NFS 的诞生与成长

青云技术社区

存储 分布式存储 NFS

字节跳动三面拿offer:网络+IO+redis+JVM+GC+红黑树+数据结构

Java 编程 程序员 架构 面试

性能利器Takin来了!首个生产环境全链路压测平台正式开源

TakinTalks稳定性社区

开源 高可用 性能测试 压力测试

我的新书《C++服务器开发精髓》终于出版啦

张小方

c++ 网络编程 Linux服务器开发 C++后端开发 网路通信

iOS面试残篇-辟邪剑谱

程序员 面试 编程之路 移动开发 iOS 知识体系

Java 的函数式接口(必懂知识点!)

Java MySQL 程序员 面试

CloudQuery 使用教程之《No.2数据查询(上)》

BinTools图尔兹

sql dba 数据库管理工具 国产数据库 开发运维

数字化时代,为什么解决信任问题是科技公司最重要的事情?

CECBC

未来法律科技发展现五大趋势,区块链、AI、大数据吸引资本目光

CECBC

深入C语言中数据的存储

小写丶H

奇亚矿机系统源码,Bzz节点分币系统搭建

41 位 Contributor 参与,1574 个 PR,不容错过的版本更新!

SphereEx

智能语音技术在字节跳动内容平台的演进和应用实践_AI&大模型_刘燕_InfoQ精选文章