NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

谷歌语音人工智能 AudioPaLM,语音传输瞬间翻译

作者:Anthony Alford

  • 2023-08-02
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

谷歌语音人工智能AudioPaLM,语音传输瞬间翻译

谷歌的研究人员发布了AudioPaLM,这是一个大语言模型(LLM),可以通过语音传输执行文本转语音(TTS)、自动语音识别(ASR)和语音到语音翻译(S2ST)。AudioPaLM 是基于PaLM-2 LLM的,在翻译基准测试上优于OpenAI的Whisper


AudioPaLM 是一个基于 Transformer 的纯解码器模型,它将文本和音频输入组合成单个嵌入表示。与使用离散 ASR、机器翻译(MT)和 TTS 模型等级联的传统 S2ST 模型不同,AudioPaLM 可以保留声学特征,例如说话者的声音。AudioPaLM 在 S2ST 和 ASR 基准测试中取得了最先进的成绩,并且还展示了零样本能力,对训练数据中不存在的输入和目标组合执行 ASR。在FLEURS数据集上进行评估时,AudioPaLM 在 ASR 任务上“显著”优于 OpenAI 的 Whisper。


InfoQ 最近报道了其他几个多语言人工智能语音模型。2022 年,OpenAI发布了Whisper,这是一个基于 Transformer 的编码器/解码器 ASR 模型,可以转录和翻译 97 种不同语言的语音音频。今年早些时候,Meta发布了MMS,这是一个基于 wav2vec 的模型,可以用 1100 多种语言进行 ASR 和 TTS。


与这些相比,AudioPaLM 是一个基于 Transformer 的纯解码器模型。它是基于预训练的 PaLM-2 的。然后,将模型的标记字典扩展为包括声学标记,声学标记表示音频波形的短片段。它们被映射到与原始模型中文本标记相同的嵌入空间中。然后,模型的输入可以包括音频和文本。文本输入包括任务的简短描述,例如“[ASR 意大利语]”。当模型的输出被解码时,可以使用AudioLM模型将声学标记转换回音频波形。



AudioPaLM 的架构图。图片来源:https://google-research.github.io/seanet/audiopalm/examples/


AudioPaLM 接受了来自 100 多种语言的数千小时的音频数据训练。它在多个基准上进行了评估,包括CoVoST2(AST)、CVSS(S2ST)和VoxPopuli(ASR)。它在 AST 和 S2ST 上的表现优于基线模型,在 ASR 上具有“竞争力”。在使用FLEURS基准的零样本 AST 中,AudioPaLM“显著”优于 Whisper。它在 ASR 任务上也优于 Whisper,Whisper 接受过 ASR 任务所涉及的语言的训练,而 AudioPaLM 没有。


研究人员还评估了 AudioPaLM 的音频生成质量,特别是在 S2ST 期间保留原始说话者的声音方面。他们结合“客观指标和主观评估研究”将其性能与基线模型进行比较,发现它“显著”优于基线。在他们的论文中,谷歌团队指出,需要更好的基准来衡量音频生成的质量:


与文本相比,生成文本/音频任务的既定基准集的丰富性还不够成熟。这项工作主要集中在语音识别和语音翻译,它们的基准比较成熟。为生成音频任务建立更多的基准和指标将有助于进一步加快该研究。


一些用户在 Hacker News 的帖子中讨论了AudioPaLM。在回答关于 LLM 翻译准确性的问题时,鉴于其会“产生幻觉”的倾向,一位用户表示,对于像 AudioPaLM 这样最先进的模型,幻觉“几乎不存在”。关于 AudioPaLM 的翻译,另一位用户观察到:


令人印象深刻的是,它将“Morgenstund hat Gold imMund”(早晨口中含金子)翻译成了相应的英语表达“早起的鸟儿有虫吃”,而不是直译。


AudioPaLM输出的若干示例可以在网上找到。


原文链接:

https://www.infoq.com/news/2023/07/google-audiopalm/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-08-02 10:362520

评论 1 条评论

发布
用户头像
干翻同声传译
2023-08-02 17:03 · 北京
回复
没有更多了
发现更多内容

谁说 Zadig 只能复制环境?数百微服务一套环境实现高效协作

Zadig

DevOps 云原生 CI/CD 软件交付

英特尔公布数据中心和人工智能领域重大进展,全方位展示强劲领导力

科技新消息

英特尔以四大超级技术力量,助力数字未来,发布多项进展

科技新消息

GPU分类和应用现状分析

Finovy Cloud

人工智能 云计算 gpu GPU服务器

String源码解析-String的使用注意2

zarmnosaj

5月月更

实现同比、环比计算的N种姿势

葡萄城技术团队

数据分析 BI数据分析 同比 环比

如何开发 LAXCUS 分布式应用软件(四):编写边缘端软件

LAXCUS分布式操作系统

并行计算 端边云协同架构 分布式操作系统 分布式应用软件

无聊科技正经事周刊(第6期):纯粹的程序员与必然的中年危机

潘大壮

程序员 周刊 行业趋势 科技周刊

如何开发 LAXCUS 分布式应用软件(三):编写终端软件

LAXCUS分布式操作系统

集群架构 并行计算 端边云 分布式操作系统 分布式应用软件

数据标准在网易的实践

网易数帆

大数据 数据仓库 数据治理 元数据 数据标准

echarts饼图指示器文字颜色设置不同

空城机

eCharts 5月月更

基于 Agora SDK 实现 Windows 端的一对一视频通话(基于3.6.2版本)

声网

人工智能 音视频 sdk

windows服务器是什么?运维管理用什么工具好?

行云管家

windows 服务器 自动化运维 服务器运维

Spring Security

Zhang

Java spring security

蝉联第一!金蝶夺取Gartner中国高生产力aPaaS市场冠军!

金蝶云·苍穹

我国类脑计算处于什么水平?人工智能下神经科学启发的类脑计算。

蓝海大脑GPU

人工智能 液冷服务器 类脑计算 神经科学

“四大高手”为你的 Vue 应用程序保驾护航

葡萄城技术团队

钉钉 Flutter 跨四端方案设计与技术实践 | Dutter

阿里巴巴终端技术

flutter 移动端 跨端框架 桌面端

netty系列之:我有一个可扩展的Enum你要不要看一下?

程序那些事

Java Netty 程序那些事 5月月更

墨天轮访谈 | OceanBase 白超:海量数据管理,为什么选择OceanBase?

墨天轮

数据库 oceanbase 国产数据库

在字节跳动,一个更好的企业级SparkSQL Server这么做

字节跳动数据平台

有趣、实用、全面,是程序员心中理想人工智能教材的样子了

图灵教育

深度学习 PyTorch

如何清除 WordPress 中的缓存

海拥(haiyong.site)

WordPress 5月月更

动辄“耗资过亿”的表格工具,究竟难在哪儿?

葡萄城技术团队

FinClip+微幕小程序,助力企业全端公私域流量互通

Speedoooo

小程序 WordPress 移动开发 小程序容器

等保三级全称是什么?是什么意思?

行云管家

网络安全 等级保护 等保三级 等保2.0

Spring Authorization Server 实现授权中心

Zhang

Java OAuth 2.1 Spring Security OAuth

揭秘英特尔未来IPU路线图,开启数据中心“进化之旅”

科技新消息

硬件为矛 软件为盾 英特尔分享数据中心GPU的攻守之道

科技新消息

直播预告 | PolarDB-X 动手实践系列——PolarDB-X Replica原理和使用

阿里云数据库开源

数据库 阿里云 开源 PolarDB-X

Go1.18泛型浅谈

CodeWithBuff

golang 泛型 新特性 Go 语言

谷歌语音人工智能AudioPaLM,语音传输瞬间翻译_自然语言处理_InfoQ精选文章