写点什么

谷歌推出 Translatotron 2,一种没有深度伪造潜力的语音到语音直接翻译神经模型

  • 2021 年 9 月 09 日
  • 本文字数:1163 字

    阅读完需:约 4 分钟

谷歌推出Translatotron 2,一种没有深度伪造潜力的语音到语音直接翻译神经模型

谷歌已经在人工智能领域努力了很长一段时间,并成功实现了一些惊人的成果,2019 年发布的直接语音翻译系统 Translatotron 就是其中之一。


Translatotron 是一种人工智能系统,能够将一段语音直接翻译成另一种语言。该系统可以创建原始语音的合成翻译,保留说话者的原始音调音色,让翻译出来的语音听起来就像是本人说的一样。但与它的突出优势伴随而来的是一个显著缺陷:该系统创建的语音还能换一种声音,因此很容易被滥用。一个类似的例子就是图像领域的deepfakes,也就是深度伪造图像。


来源:https://arxiv.org/pdf/2107.08661.pdf

新系统:Translatotron2


谷歌现在声称,他们已经在 Translatotron 2 中给出了解决方案。这个新的 AI 系统解决了滥用问题,因为它被限制为保持源讲话人的声音特性不变。新系统通过减少不需要的伪像(如说话间的踌躇和长时间停顿)提高了质量并让声音听起来更加自然。不仅如此,这个新系统的性能也更出色,大大超过了第一代版本。

新元素


人工智能研究人员在他们的论文中进一步提到了几个新元素:


  • 源语音编码器

  • 目标音素解码器

  • 通过一个注意力模块连接的合成器


所有这些元素都是相辅相成的;编码器和解码器处理输入系统的所有数据,然后注意力模块研究每条信息在提供的数据中的相关性。这是一个系统过程,之后整个系统会生成输出。


在这一过程中,编码器创建语音的数字表示,解码器描述生成的翻译语音的音素(这些音素是声音的次级单位,使系统/听众更容易将一段语音与来自任意语种的另一段语音区分开来)。之后合成器开始工作,从解码器中获取输出以及随后产生的上下文,来合成翻译后的语音。



来源:https://arxiv.org/pdf/2107.08661.pdf

限制翻译器的深度伪造能力


对于利于深度伪造方法来生成伪造语音的做法,研究人员的对策是在开发时限定系统只能保留原始说话者的声音。为此,研究人员从宏观视角入手开发了一种方法,其不需依赖明确和给定的 ID 来识别说话者(Translatotron 中使用的旧技术)。因此,谷歌的研究人员声称 Translatotron 更适合用来生成翻译语音,因为它能预防潜在的滥用风险。


研究人员还声称,近年来语音转换已成为一种越来越流行的趋势。机器语音质量的水平已经提升到了自动化验证器通常无法分辨其是否来自人类、是否经过处理的程度。因此,这一领域的系统本身就应该避免任何形式的滥用,而新一代的 Translatotron 2 就声称自己能做到这一点。


在媒体生成技术不断改进的道路上,Translatotron 2 是研究人员对抗深度伪造技术的一项突破,如果它能取得成功,则未来影响会相当可观。


论文:https://arxiv.org/pdf/2107.08661.pdf


项目示例:https://google-research.github.io/lingvo-lab/translatotron2/


原文链接:


https://www.marktechpost.com/2021/08/07/google-ai-introduces-translatotron-2-a-neural-direct-speech-to-speech-translation-model-without-the-deepfake-potential

2021 年 9 月 09 日 18:492462
用户头像
刘燕 InfoQ记者

发布了 821 篇内容, 共 276.3 次阅读, 收获喜欢 1560 次。

关注

评论

发布
暂无评论
发现更多内容

作业一:食堂就餐卡系统设计

伊灵

架构师训练营第 1 期第 5 周作业

du tiezheng

极客大学架构师训练营

架构训练营 - 第5周课后作业 - 学习总结

Pudding

SpringBoot整合原生OpenFegin的坑(非SpringCloud)

冰河

微服务 高并发 远程调用 springboot OpenFegin

【架构师训练营 1 期】第五周学习总结

诺乐

Docker内部组件

混沌畅想

Docker 容器 运维

间隔重排序链表Reorder List,iOS架构RxSwift, VIPER,MVVM,MVP, 机器学习,SageMaker,John 易筋 ARTS 打卡 Week 23

John(易筋)

学习 ARTS 打卡计划 重新排列链表算法 iOS 架构RxSwift SageMaker

第5周作业

paul

阿里云盘线下交流会

兔2🐰🍃

阿里云网盘 Teambition 线下体验

Go发起HTTP2.0请求流程分析(后篇)——标头压缩

Gopher指北

后端 HTTP2.0 Go 语言

低代码开发平台,真的是为了“干掉“程序员嘛?

力软.net/java开发平台

软件开发 低代码

一文快速入门分库分表中间件 Sharding-JDBC (必修课)

程序员小富

Java 分库分表

week-5-part2 学习总结

陈龙

【架构师训练营 1 期】第五周作业

诺乐

Consistent Hashing算法实现 - JavaScript

超越视觉支持语音新版OpenVINO发布,为更多智能边缘开发者赋能

新闻科技资讯

万字长文深入理解java中的集合-附PDF下载

程序那些事

java编程 JAVA集合 java集合总结 java集合使用 java秘籍

环信入选2020在线教育视频云创新排行TOP10

DT极客

第五周作业

熊桂平

极客大学架构师训练营

第五周学习心得

熊桂平

极客大学架构师训练营

5. Bean Validation声明式验证四大级别:字段、属性、容器元素、类

YourBatman

Hibernate-Validator Bean Validation 数据校验

10月24日,“网安小酒馆”线上活动开启,有红包,更有名酒相送

Cloudaemon

配置企业应用业务流程别头大,有工作流引擎就不怕

Marilyn

敏捷开发

一致性hash

袭望

week-5-part1 java实现一致性 hash 算法

陈龙

Week 5 作业02

Croesus

架构师训练营 - 第 5 周课后作业(1 期)

Pudding

独家揭秘 | 京东物流Elasticsearch大规模“迁移上云”实践

京东科技开发者

云计算

架构一期第五周作业

Airs

非阻塞的无界线程安全队列 —— ConcurrentLinkedQueue

程序员小航

Java 源码 并发 源码阅读 JUC

iOS touch事件点的获取

teoking

ios

谷歌推出Translatotron 2,一种没有深度伪造潜力的语音到语音直接翻译神经模型_文化 & 方法_Amreen Bawa_InfoQ精选文章