写点什么

智能语音技术在字节跳动内容平台的演进和应用实践

2021 年 9 月 08 日

智能语音技术在字节跳动内容平台的演进和应用实践

AI 技术正在成为辅助内容生产和传播的“利器”。尤其随着现在语音、文本、图像、视频等不同模态的信息层出不穷,以 AI 技术作为“创作工具”将为内容生产带来新变革。


以字节跳动为例,字节跳动拥有全球化的内容平台,内容形式经历了图文、音频和视频各个阶段,在这个过程中,内部对智能语音技术的需求日益增强,如有声书内容生产,短视频中的内容审核、自动字幕和配音功能等。


自 2017 年开始重点布局智能语音技术以来,该技术已广泛应用在字节跳动内部的教育、视频、小说、客服、硬件、音乐、办公、游戏、广告等业务场景。实践证明,作为新型的生产工具,智能语音技术能够极大地提升 AI 内容生产和创作领域的生产力。


在将于 11 月 5 日 - 6 日举办的 AICon 全球人工智能与机器学习大会(北京站)2021 上,字节跳动 AI-Lab 智能语音/语音合成 Leader 殷翔博士将作为“AI 与产业互联网结合”专场的讲师,


InfoQ 有幸提前对殷翔博士进行了专访,他详细介绍了智能语音技术上在字节跳动的研发进展以及应用实践,分享了智能语音赋能内容生产的思考。


以下为 InfoQ 与殷翔博士对话全文:

字节跳动的智能语音技术布局


InfoQ :殷老师您好,很高兴有机会采访您,首先请您做一下自我介绍,您自何时加入字节跳动,以及目前主要负责的工作?


殷翔: 我是 2018 年加入字节跳动人工智能实验室,负责音频生成算法团队,研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。


InfoQ:字节跳动大概是从什么时候开始布局智能语音技术的?公司内部对智能语音技术的需求主要来自哪些场景?


殷翔: 字节跳动是从 2017 年底重点投入智能语音技术的。公司对智能语音技术需求主要来自于短视频中的内容审核、自动字幕和配音功能、办公软件飞书的会议转写、客服外呼机器人的语音交互链路、教育口语评测、小说音频内容生成、教育硬件下的语音增强、音乐消重和听歌识曲、外部 ToB 需求等。


InfoQ:字节跳动如何定位智能语音技术,如何看待它在公司整体的 AI 布局中所处的位置?


殷翔: 字节跳动拥有全球化的内容平台,内容形式经历了图文、音频和视频各阶段,如何高效理解、创作、互动和分发内容,给 AI 技术带来了机遇和挑战。随着深度学习和机器算力的不断发展,智能语音技术已经迈进了端到端时代,并借助丰富场景下的海量数据,显著提升了内容理解的精度、内容创作的质量。


智能语音技术在公司整体 AI 布局中扮演的角色之一是内容创作工具,例如:通过自然语言理解、语音合成和音乐生成等技术开发的有声书内容生产,能够将番茄小说海量网文转成有声书,供用户聆听。在短视频方面,能够辅助用户通过字幕自动添加、个性化配音和滤镜玩法创造出内容丰富的作品。


InfoQ:除了您所在的团队(AILab),字节跳动内部还有哪些团队在做语音技术的研究,各部门的侧重点分别是什么,又是如何协作的?


殷翔: 字节跳动产品研发和工程架构部门也在做相关研究。AILab-智能语音属于 AI 中台,使命是做“大而全”的技术支持,对某些需要深入合作的业务部门,会专门派同学 BP,进行“精且深”的解决方案打磨。最终我们的愿景是将 AI 中台能力做成定制方案,提供 ToB。产品研发和工程架构部的语音部门需要集中支持所属部门业务方向,与业务一起成长,做到 BU 化。在协作方面,对于共有能力,会依照业务场景进行划分。对于差异化能力,会依照业务方的需求,形成组合方案,提供支持。


InfoQ:近期字节跳动在智能语音领域取得了哪些重要技术成果?


殷翔: 在语音识别方面,通过无监督预训练+少量有监督的技术,参加国际低资源多语言语音识别挑战赛(MUCS21),取得多语言语音识别赛道第二名;音乐技术方面,我们参加了 MIREX2020 翻唱识别竞赛,取得第一名,mAP 领先第二名 8%;语音合成上,我们发表了业界首个基于 seq2seq 链路的中文歌唱合成系统 ByteSing 以及搭建了 seq2seq 的中文前端多任务模型并用于线上业务;


InfoQ:端到端语音识别时代已来临,端到端识别技术近些年成为了学术界和业界研究的热点。目前,字节跳动在端到端识别算法的研究和应用进展如何?


殷翔: 我们在 RNN-T 上做了不少原创性工作,包括加速 RNN-T 的训练和推理,结合端云一体进行了多项创新,目前已将该技术上线到各类业务场景中。同时,我们还在打造下一代端到端识别算法框架,并已取得了较大的进展。


InfoQ:接下来字节跳动在语音技术领域的重点研究方向是什么;您所在的团队接下来的规划是?


殷翔: 以语音识别和合成为例。语音识别方向上,重点研究方向包括结合无监督预训练提升低资源语种的识别率、结合多模态信息的场景分类和语音识别、新一代端到端识别框架;语音合成方向上,重点研究方向包括文本到波形的端到端联合建模、低质少量的跨语种音色复刻、直播流式场景下的音色转换、多模态感知型虚拟形象等。我们团队接下来重点发展的规划,包括多语种的视频字幕和配音、多模态语音交互链路、搭建有声内容生产平台等。

智能语音广泛落地于字节跳动的内容平台


InfoQ:你们团队研发的语音技术目前在字节跳动内部的哪些场景应用?公司外部,有哪些应用场景?


殷翔: 团队研发技术落地于教育、视频、小说、客服、硬件、音乐、办公、ToB、游戏、广告等内部业务场景,主要以服务调用或 SDK 的形式使用。对于外部场景,会通过火山引擎控制台对外提供服务。


InfoQ:你们如何评估智能语音技术在各个场景的应用效果?


殷翔: 我们会通过调用量、语音处理/生成时长等纯技术指标来衡量使用情况,同时也会通过业务侧拆解出的 DAU、留存、渗透时长、效率提升等指标来衡量效果。


InfoQ:在字节跳动的内容平台由图文-音频-视频不断演进的过程中,如何看待语音技术的重要性?


殷翔: 语音技术在内容形式不断的演化过程中,可以持续通过对语音和语义的理解,来帮助平台筛选出违禁的内容。通过机器+人工的方式,大大提升审核的效率;同时,通过对语义的理解和语音/图像信号的重建,为平台提供丰富的不同模态内容,供用户消费。


InfoQ:字节跳动的语音技术在有声书合成应用场景中,有没有一些难突破的技术点,是怎样解决的?最终达到的朗读效果与真人朗读相比,还有哪些差距?


殷翔: 在有声书合成应用场景下,存在的难点主要是如何接近真人播讲的效果,使得最终的合成音频能够体现出不同角色在不同上下文环境里的效果。我们会通过小说篇章理解来将网文转换成剧本,标识出每句对话是哪个角色来读和以什么情感来读,再采用对应音色结合情感合成得到音频内容。最终的朗读效果与真人相比,差距在于无法做到根据不同上下文语境展现不同风格,只能表现出音库单一的录制风格。


InfoQ:针对有声书合成,共训练了多少种声音,是否有根据不同(年龄)人群的需要和兴趣定制更个性化的声音或者多(分)角色有感情朗读?或者是否有配合不同的书籍类型去创作不同的声音?


殷翔: 针对有声书合成共训练了 30 多种声音,我们目前根据番茄小说平台用户喜欢的头部小说,归类出头部书中最感兴趣的角色,再通过机器+人工的方式建立书中人物和音色的关系。从而让用户能够享受合适的多角色情感朗读。


InfoQ:近几年短视频非常火热,单字节跳动的短视频平台就拥有数亿日活的用户,每天会产生数量庞大的短视频,在针对短视频的二次智能创作方面,语音技术具体会进行哪些创作?用户的反馈效果如何?


殷翔: 语音技术会进行字幕添加、文字配音和模版玩法等,从而提升视频的丰富度。这很大程度上促进了用户的投稿率,成为视频工具不可或缺的功能。

智能语音技术赋能内容生产: 差异化、效果优、迭代快、低成本是未来趋势


InfoQ:与以前的视频化相比,现在已经进入了超视频化时代,内容在更多地往视频演进。超视频时代的来临,对智能语音技术在视频场景的应用带来了哪些机会和挑战?


殷翔: 机会在于我们可以面向广大用户群体提供丰富的内容创作工具,挑战则在于我们需要更理解用户,分析清楚采用何种功能能够激发他们的创作兴趣。


InfoQ:字节跳动的智能语音技术,从研究方向和落地应用来看,有哪些独特的优势?


殷翔: 我们的研究方向是结合实际落地需求和前沿学术趋势逐渐形成的,一切均围绕着如何将 AI 技术更好、更快、成本更低地落地于实际场景中来。针对落地应用,我们会 BP 到不同的业务部门,与他们的业务指标对齐,再拆解成技术指标跟进。因此,AI 中台既能够直接拿到业务收益,业务目标也可以与 AI 技术目标同步。


InfoQ:据您判断,接下来智能语音技术在 AI 内容生产和创作领域还有哪些发展趋势?


殷翔: 智能语音技术作为生产工具,是可以极大提升 AI 内容生产和创作领域的生产力的。未来行业内,一定是会围绕着差异化、效果优、迭代快、低成本等方向持续发展,借助技术的提升,不断推动 AI 产业化和规模化的进步。


采访嘉宾介绍:


殷翔博士,字节跳动 AI-Lab 智能语音/语音合成 Leader。2011 年毕业于中国科学技术大学电子工程与信息科学系,2016 于本校语音及语言信息处理国家工程实验室获得博士学位,研究方向为语音合成中的神经网络声学建模方法研究。2018 年加入字节跳动人工智能实验室,负责音频生成算法团队,研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。在各类国际语音会议和刊物中发表论文 13 篇,国内外专利 10 余篇。

2021 年 9 月 08 日 13:35666
用户头像
刘燕 InfoQ记者

发布了 679 篇内容, 共 215.8 次阅读, 收获喜欢 1303 次。

关注

评论

发布
暂无评论
发现更多内容

新世界的智能,旧梦中的暖气

脑极体

Mybatis系列全解(六):Mybatis最硬核的API你知道几个?

潘潘和他的朋友们

Java 后端 mybatis 后端开发 mybatis源码

2021 年产品训练营 - 第二周作业

Meng

训练营-第二周作业

💥萝贝桃儿

太牛了!这是什么神仙级的面试pdf(含答案),跳槽大厂不是问题

Java架构之路

Java 程序员 架构 面试 编程语言

喜报丨京东科技主导的开源项目ShardingSphere荣登报告榜单国人主导开源项目中活跃度第五名!

京东科技开发者

分布式数据库 京东 ShardingSphere

混合云管平台openkube日志系统介绍

滴普科技2048实验室

产品经理训练营-第二周作业

懒杨杨

还不知道简历如何写?就该这样写!

yes

面试 简历

产品经理训练营 Week2 作业

Mai

作业

Eva

香喷喷!2021最新出炉Java程序员面试全方位贴身指南

比伯

Java 编程 程序员 架构 面试

3分钟带你了解「消息中间件」Kafka、RocketMQ

互联网架构师小马

奥里给,通过这几份PDF,终于拿到了阿里,腾讯等一线大厂的offer

Java架构之路

Java 程序员 架构 面试 编程语言

Alibaba内部晋升手册面试题集 ,Java岗位

Java架构之路

Java 程序员 架构 面试 编程语言

第二周作业

纳豆卡玛

第二周作业

产品经理训练营 第二周作业记录

玲玲

产品思维 产品经理训练营

第三周作业 利益相关方排序

Eva

在质量管理中掘金

俊毅

产品训练营第二周作业-利益相关者

jpcr987i

作业 - 第二章 产品思维和产品意识

hao hao

MapReduce练习案例3 - 自定义分区

小马哥

大数据 hadoop mapreduce 七日更

产品经理训练营第二周作业 - 利益相关方

Denny-xi

产品经理 产品经理训练营

极客大学·产品经理训练营·第二章作业

二大爷

产品经历

席卷图文学习前端Flex布局

魔王哪吒

html 面试 前端 html/css Flex

第二次作业&第三次作业

yoki

Mybatis系列全解(七):全息视角看Dao层两种实现方式之传统方式与代理方式

潘潘和他的朋友们

Java 后端 mybatis 后端开发 mybatis源码

MapReduce博文体系

小马哥

大数据 mapreduce 知识体系 架构师 七日更

小程序抽奖助手产品利益相关者分析

夏天的风

产品经理训练营

产品经理训练营第 0 期 - 第二周作业

🍑

极客大学产品经理训练营

张红珊—第二章作业

zzz

MySQL 核心特性与优化

MySQL 核心特性与优化

智能语音技术在字节跳动内容平台的演进和应用实践-InfoQ