【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

智能语音技术在字节跳动内容平台的演进和应用实践

  • 2021-09-08
  • 本文字数:3713 字

    阅读完需:约 12 分钟

智能语音技术在字节跳动内容平台的演进和应用实践

AI 技术正在成为辅助内容生产和传播的“利器”。尤其随着现在语音、文本、图像、视频等不同模态的信息层出不穷,以 AI 技术作为“创作工具”将为内容生产带来新变革。


以字节跳动为例,字节跳动拥有全球化的内容平台,内容形式经历了图文、音频和视频各个阶段,在这个过程中,内部对智能语音技术的需求日益增强,如有声书内容生产,短视频中的内容审核、自动字幕和配音功能等。


自 2017 年开始重点布局智能语音技术以来,该技术已广泛应用在字节跳动内部的教育、视频、小说、客服、硬件、音乐、办公、游戏、广告等业务场景。实践证明,作为新型的生产工具,智能语音技术能够极大地提升 AI 内容生产和创作领域的生产力。


在将于 11 月 5 日 - 6 日举办的 AICon 全球人工智能与机器学习大会(北京站)2021 上,字节跳动 AI-Lab 智能语音/语音合成 Leader 殷翔博士将作为“AI 与产业互联网结合”专场的讲师,


InfoQ 有幸提前对殷翔博士进行了专访,他详细介绍了智能语音技术上在字节跳动的研发进展以及应用实践,分享了智能语音赋能内容生产的思考。


以下为 InfoQ 与殷翔博士对话全文:

字节跳动的智能语音技术布局


InfoQ :殷老师您好,很高兴有机会采访您,首先请您做一下自我介绍,您自何时加入字节跳动,以及目前主要负责的工作?


殷翔: 我是 2018 年加入字节跳动人工智能实验室,负责音频生成算法团队,研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。


InfoQ:字节跳动大概是从什么时候开始布局智能语音技术的?公司内部对智能语音技术的需求主要来自哪些场景?


殷翔: 字节跳动是从 2017 年底重点投入智能语音技术的。公司对智能语音技术需求主要来自于短视频中的内容审核、自动字幕和配音功能、办公软件飞书的会议转写、客服外呼机器人的语音交互链路、教育口语评测、小说音频内容生成、教育硬件下的语音增强、音乐消重和听歌识曲、外部 ToB 需求等。


InfoQ:字节跳动如何定位智能语音技术,如何看待它在公司整体的 AI 布局中所处的位置?


殷翔: 字节跳动拥有全球化的内容平台,内容形式经历了图文、音频和视频各阶段,如何高效理解、创作、互动和分发内容,给 AI 技术带来了机遇和挑战。随着深度学习和机器算力的不断发展,智能语音技术已经迈进了端到端时代,并借助丰富场景下的海量数据,显著提升了内容理解的精度、内容创作的质量。


智能语音技术在公司整体 AI 布局中扮演的角色之一是内容创作工具,例如:通过自然语言理解、语音合成和音乐生成等技术开发的有声书内容生产,能够将番茄小说海量网文转成有声书,供用户聆听。在短视频方面,能够辅助用户通过字幕自动添加、个性化配音和滤镜玩法创造出内容丰富的作品。


InfoQ:除了您所在的团队(AILab),字节跳动内部还有哪些团队在做语音技术的研究,各部门的侧重点分别是什么,又是如何协作的?


殷翔: 字节跳动产品研发和工程架构部门也在做相关研究。AILab-智能语音属于 AI 中台,使命是做“大而全”的技术支持,对某些需要深入合作的业务部门,会专门派同学 BP,进行“精且深”的解决方案打磨。最终我们的愿景是将 AI 中台能力做成定制方案,提供 ToB。产品研发和工程架构部的语音部门需要集中支持所属部门业务方向,与业务一起成长,做到 BU 化。在协作方面,对于共有能力,会依照业务场景进行划分。对于差异化能力,会依照业务方的需求,形成组合方案,提供支持。


InfoQ:近期字节跳动在智能语音领域取得了哪些重要技术成果?


殷翔: 在语音识别方面,通过无监督预训练+少量有监督的技术,参加国际低资源多语言语音识别挑战赛(MUCS21),取得多语言语音识别赛道第二名;音乐技术方面,我们参加了 MIREX2020 翻唱识别竞赛,取得第一名,mAP 领先第二名 8%;语音合成上,我们发表了业界首个基于 seq2seq 链路的中文歌唱合成系统 ByteSing 以及搭建了 seq2seq 的中文前端多任务模型并用于线上业务;


InfoQ:端到端语音识别时代已来临,端到端识别技术近些年成为了学术界和业界研究的热点。目前,字节跳动在端到端识别算法的研究和应用进展如何?


殷翔: 我们在 RNN-T 上做了不少原创性工作,包括加速 RNN-T 的训练和推理,结合端云一体进行了多项创新,目前已将该技术上线到各类业务场景中。同时,我们还在打造下一代端到端识别算法框架,并已取得了较大的进展。


InfoQ:接下来字节跳动在语音技术领域的重点研究方向是什么;您所在的团队接下来的规划是?


殷翔: 以语音识别和合成为例。语音识别方向上,重点研究方向包括结合无监督预训练提升低资源语种的识别率、结合多模态信息的场景分类和语音识别、新一代端到端识别框架;语音合成方向上,重点研究方向包括文本到波形的端到端联合建模、低质少量的跨语种音色复刻、直播流式场景下的音色转换、多模态感知型虚拟形象等。我们团队接下来重点发展的规划,包括多语种的视频字幕和配音、多模态语音交互链路、搭建有声内容生产平台等。

智能语音广泛落地于字节跳动的内容平台


InfoQ:你们团队研发的语音技术目前在字节跳动内部的哪些场景应用?公司外部,有哪些应用场景?


殷翔: 团队研发技术落地于教育、视频、小说、客服、硬件、音乐、办公、ToB、游戏、广告等内部业务场景,主要以服务调用或 SDK 的形式使用。对于外部场景,会通过火山引擎控制台对外提供服务。


InfoQ:你们如何评估智能语音技术在各个场景的应用效果?


殷翔: 我们会通过调用量、语音处理/生成时长等纯技术指标来衡量使用情况,同时也会通过业务侧拆解出的 DAU、留存、渗透时长、效率提升等指标来衡量效果。


InfoQ:在字节跳动的内容平台由图文-音频-视频不断演进的过程中,如何看待语音技术的重要性?


殷翔: 语音技术在内容形式不断的演化过程中,可以持续通过对语音和语义的理解,来帮助平台筛选出违禁的内容。通过机器+人工的方式,大大提升审核的效率;同时,通过对语义的理解和语音/图像信号的重建,为平台提供丰富的不同模态内容,供用户消费。


InfoQ:字节跳动的语音技术在有声书合成应用场景中,有没有一些难突破的技术点,是怎样解决的?最终达到的朗读效果与真人朗读相比,还有哪些差距?


殷翔: 在有声书合成应用场景下,存在的难点主要是如何接近真人播讲的效果,使得最终的合成音频能够体现出不同角色在不同上下文环境里的效果。我们会通过小说篇章理解来将网文转换成剧本,标识出每句对话是哪个角色来读和以什么情感来读,再采用对应音色结合情感合成得到音频内容。最终的朗读效果与真人相比,差距在于无法做到根据不同上下文语境展现不同风格,只能表现出音库单一的录制风格。


InfoQ:针对有声书合成,共训练了多少种声音,是否有根据不同(年龄)人群的需要和兴趣定制更个性化的声音或者多(分)角色有感情朗读?或者是否有配合不同的书籍类型去创作不同的声音?


殷翔: 针对有声书合成共训练了 30 多种声音,我们目前根据番茄小说平台用户喜欢的头部小说,归类出头部书中最感兴趣的角色,再通过机器+人工的方式建立书中人物和音色的关系。从而让用户能够享受合适的多角色情感朗读。


InfoQ:近几年短视频非常火热,单字节跳动的短视频平台就拥有数亿日活的用户,每天会产生数量庞大的短视频,在针对短视频的二次智能创作方面,语音技术具体会进行哪些创作?用户的反馈效果如何?


殷翔: 语音技术会进行字幕添加、文字配音和模版玩法等,从而提升视频的丰富度。这很大程度上促进了用户的投稿率,成为视频工具不可或缺的功能。

智能语音技术赋能内容生产: 差异化、效果优、迭代快、低成本是未来趋势


InfoQ:与以前的视频化相比,现在已经进入了超视频化时代,内容在更多地往视频演进。超视频时代的来临,对智能语音技术在视频场景的应用带来了哪些机会和挑战?


殷翔: 机会在于我们可以面向广大用户群体提供丰富的内容创作工具,挑战则在于我们需要更理解用户,分析清楚采用何种功能能够激发他们的创作兴趣。


InfoQ:字节跳动的智能语音技术,从研究方向和落地应用来看,有哪些独特的优势?


殷翔: 我们的研究方向是结合实际落地需求和前沿学术趋势逐渐形成的,一切均围绕着如何将 AI 技术更好、更快、成本更低地落地于实际场景中来。针对落地应用,我们会 BP 到不同的业务部门,与他们的业务指标对齐,再拆解成技术指标跟进。因此,AI 中台既能够直接拿到业务收益,业务目标也可以与 AI 技术目标同步。


InfoQ:据您判断,接下来智能语音技术在 AI 内容生产和创作领域还有哪些发展趋势?


殷翔: 智能语音技术作为生产工具,是可以极大提升 AI 内容生产和创作领域的生产力的。未来行业内,一定是会围绕着差异化、效果优、迭代快、低成本等方向持续发展,借助技术的提升,不断推动 AI 产业化和规模化的进步。


采访嘉宾介绍:


殷翔博士,字节跳动 AI-Lab 智能语音/语音合成 Leader。2011 年毕业于中国科学技术大学电子工程与信息科学系,2016 于本校语音及语言信息处理国家工程实验室获得博士学位,研究方向为语音合成中的神经网络声学建模方法研究。2018 年加入字节跳动人工智能实验室,负责音频生成算法团队,研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。在各类国际语音会议和刊物中发表论文 13 篇,国内外专利 10 余篇。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-09-08 13:351995
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 489.3 次阅读, 收获喜欢 1965 次。

关注

评论

发布
暂无评论
发现更多内容

GitHub远程免密连接详解,还顺手解决了RPC失败HTTP413

老表

GitHub RPC HTTP 11月日更

科技热点周刊|ClickHouse 融资 2.5 亿美元、个人信息保护法正式实施、Facebook 改名 Meta

青云技术社区

云计算 facebook 云原生

端开发技术——5个高效的Flutter开发工具

思想者杰克

ReplacingMergeTree:实现Clickhouse数据更新

华为云开发者联盟

数据 事务 Clickhouse 数据更新 OLAP数据库

linux lsquic 编译

webrtc developer

TDengine在浙商银行微服务监控中的实践

TDengine

tdengine 后端 时序数据库

科大讯飞联袂伯俊科技进军3C零售,构建发展新格局

科技热闻

百度鸿鹄芯片落地首款量产车吉利博越X 智能车机体验惊艳成都车展

百度开发者中心

百度 车联网 鸿鹄芯片

行业白皮书发布!百度智慧城市助力城市“双碳”目标达成

百度开发者中心

人工智能 智慧城市

常用的Nmap脚本及使用实例

喀拉峻

网络安全 信息安全 渗透测试 脚本 nmap

Github上线仅六天,收获Star超55K+,这套笔记能拿下90%以上面试

Java redis spring 程序员 架构

百度智能云与雅量商业智能携手,加速零售行业智能化升级

百度开发者中心

百度智能云 零售行业

架构实战营-总结

哈希

牛掰!“基础-中级-高级”Java程序员面试集结,看完献出我的膝盖

Java spring 程序员 JVM hashmap

杂谈——程序人生我的大学

思想者杰克

你需要知道的 19 个 console 实用调试技巧

CRMEB

CSS JavaScript DOM console crmeb

看完这篇SpringBoot让我在阿里成功涨薪40%,感谢

Java 编程 程序员 程序人生 springboot

Hexo个人博客快速部署到Gitee&Coding详细教程

老表

Hexo gitee CODING 博客配置 11月日更

前后端、多语言、跨云部署,全链路追踪到底有多难?

阿里巴巴中间件

阿里云 云原生 中间件 全链路追踪

万字长文解密数据异构最佳实践(含完整代码实现)!!

冰河

MySQL 数据库 canal 数据同步 数据异构

阿里云视频云,用技术普惠打造平民化“虚拟人”

阿里云视频云

人工智能 阿里云 视频云 数字人 虚拟人

操作系统——计算机硬件简介

思想者杰克

RadonDB ClickHouse on K8s 2.1.0 发布!

RadonDB

数据库 Kubernetes Clickhouse RadonDB

杂谈—程序人生第一份工作

思想者杰克

程序人生 新手指南 程序

Bash 脚本简介

码语者

bash Shell

百度Apollo参编首批汽车信息安全国家标准,跻身车联网信息安全第一梯队

百度开发者中心

Apollo

【高并发】开篇:线程与多线程

冰河

Java 并发编程 多线程 高并发 异步编程

接口文档工具yapi的安装

小鲍侃java

11月日更

2021年10月云主机性能评测报告

博睿数据

百度智能云人脸采集SDK通过CFCA权威安全测评

百度开发者中心

安全 sdk

极客时间【架构实战营】第二期 模块七作业

Geek_91606e

架构实战营

智能语音技术在字节跳动内容平台的演进和应用实践_AI&大模型_刘燕_InfoQ精选文章