AICon全球人工智能与机器学习技术大会8折倒计时最后一周,即将涨价>> 了解详情
写点什么

谷歌推出 Translatotron 2,一种没有深度伪造潜力的语音到语音直接翻译神经模型

2021 年 9 月 09 日

谷歌推出Translatotron 2,一种没有深度伪造潜力的语音到语音直接翻译神经模型

谷歌已经在人工智能领域努力了很长一段时间,并成功实现了一些惊人的成果,2019 年发布的直接语音翻译系统 Translatotron 就是其中之一。


Translatotron 是一种人工智能系统,能够将一段语音直接翻译成另一种语言。该系统可以创建原始语音的合成翻译,保留说话者的原始音调音色,让翻译出来的语音听起来就像是本人说的一样。但与它的突出优势伴随而来的是一个显著缺陷:该系统创建的语音还能换一种声音,因此很容易被滥用。一个类似的例子就是图像领域的deepfakes,也就是深度伪造图像。


来源:https://arxiv.org/pdf/2107.08661.pdf

新系统:Translatotron2


谷歌现在声称,他们已经在 Translatotron 2 中给出了解决方案。这个新的 AI 系统解决了滥用问题,因为它被限制为保持源讲话人的声音特性不变。新系统通过减少不需要的伪像(如说话间的踌躇和长时间停顿)提高了质量并让声音听起来更加自然。不仅如此,这个新系统的性能也更出色,大大超过了第一代版本。

新元素


人工智能研究人员在他们的论文中进一步提到了几个新元素:


  • 源语音编码器

  • 目标音素解码器

  • 通过一个注意力模块连接的合成器


所有这些元素都是相辅相成的;编码器和解码器处理输入系统的所有数据,然后注意力模块研究每条信息在提供的数据中的相关性。这是一个系统过程,之后整个系统会生成输出。


在这一过程中,编码器创建语音的数字表示,解码器描述生成的翻译语音的音素(这些音素是声音的次级单位,使系统/听众更容易将一段语音与来自任意语种的另一段语音区分开来)。之后合成器开始工作,从解码器中获取输出以及随后产生的上下文,来合成翻译后的语音。



来源:https://arxiv.org/pdf/2107.08661.pdf

限制翻译器的深度伪造能力


对于利于深度伪造方法来生成伪造语音的做法,研究人员的对策是在开发时限定系统只能保留原始说话者的声音。为此,研究人员从宏观视角入手开发了一种方法,其不需依赖明确和给定的 ID 来识别说话者(Translatotron 中使用的旧技术)。因此,谷歌的研究人员声称 Translatotron 更适合用来生成翻译语音,因为它能预防潜在的滥用风险。


研究人员还声称,近年来语音转换已成为一种越来越流行的趋势。机器语音质量的水平已经提升到了自动化验证器通常无法分辨其是否来自人类、是否经过处理的程度。因此,这一领域的系统本身就应该避免任何形式的滥用,而新一代的 Translatotron 2 就声称自己能做到这一点。


在媒体生成技术不断改进的道路上,Translatotron 2 是研究人员对抗深度伪造技术的一项突破,如果它能取得成功,则未来影响会相当可观。


论文:https://arxiv.org/pdf/2107.08661.pdf


项目示例:https://google-research.github.io/lingvo-lab/translatotron2/


原文链接:


https://www.marktechpost.com/2021/08/07/google-ai-introduces-translatotron-2-a-neural-direct-speech-to-speech-translation-model-without-the-deepfake-potential

2021 年 9 月 09 日 18:491690
用户头像
刘燕 InfoQ记者

发布了 680 篇内容, 共 216.1 次阅读, 收获喜欢 1305 次。

关注

评论

发布
暂无评论
发现更多内容

C++中glog源码剖析以及如何设计一个高效 log模块

helloworld

c++ 编程语言

爬虫(108)Python 3.8的超酷新功能(接近一万字,请耐心享用,而且建议收藏)

志学Python

python 爬虫 python3.x python升级

周日福利来了

志学Python

Python 福利 python教程 python视频教程

Kafka系列第1篇:Kafka是什么?它能干什么?

z小赵

大数据 kafka 推荐 实时计算

游戏夜读 | 2020周记(4.3-4.10)

game1night

如何梳理画出牛逼的、高大上的架构图?

狂师

程序员 企业架构 开发者 软件测试 软件开发

JAVA中Base64加密与解密

Howe

Java base64 加密解密

我愿沉迷于学习,无法自拔(二)

孙瑜

深度思考 个人成长

记录自有意义

彭宏豪95

人生 写作 感悟 记录

制作Unknown Pleasures效果图的3种方法

张云金_GISer

设计 T恤 GIS 地图

职场“35岁现象”:焦虑 or 出路?是时候说出真相了!

狂师

职场 成长 软件测试 测试 软件开发

每天打卡python面试题 - 在一行中捕获多个异常(块除外)

志学Python

Python 面试题 python 爬虫 python3.7

聊聊测试工程师的价值

鱼贩

软件测试 质量 测试工程师产出 测试的价值

Spring中的测试类~简洁方便

程序员的时光

spring

Kafka系列第4篇:消息发送时,网络“偷偷”帮忙做的那点事儿

z小赵

kafka 推荐 实时计算

太极宗师与华晨宇

伯薇

水平思考力 电视剧 综艺节目 歌手

为AndroidApk添加系统级签名

Howe

Java android

高仿瑞幸小程序 01 初建项目,引入Vant Weapp

曾伟@喵先森

小程序 微信小程序 前端 vant

​成功的人,都是 “狠角色”

非著名程序员

程序员 提升认知 成功学 自律

Kafka系列第2篇:安装测试

z小赵

大数据 kafka 推荐 实时计算

MyBatis核心功能介绍

Java收录阁

mybatis

Flutter引擎源码解读-Flutter是如何在iOS上运行起来的

稻子

flutter ios 移动应用 跨平台 dart

20 大类,100+ 网络副业兼职平台汇总推荐

一尘观世界

程序员 自由职业 副业 赚钱

Java并发编程系列——锁顺序

孙苏勇

Java Java并发 并发编程 多线程

kettle(Pentaho Data Integration) 使用"最佳"实践

稻草鸟人

Java kettle

如何优雅的接收正在运行古董代码?

冰临深渊

项目管理 架构

程序员陪娃漫画系列——上学路上

孙苏勇

程序员 生活 程序员人生 陪伴 漫画

Nacos 1.1.4 与微服务的实践经验记录

itfinally

Java 微服务 nacos

目标:2020年学会写文章

wiflish

Java新技术:文字块

范学雷

Java 编程语言

为什么每个软件人都要懂点系统架构?

刘华Kenneth

架构 DevOps 高可用 敏捷 高并发

MySQL 核心特性与优化

MySQL 核心特性与优化

谷歌推出Translatotron 2,一种没有深度伪造潜力的语音到语音直接翻译神经模型-InfoQ