谷歌语音人工智能AudioPaLM，语音传输瞬间翻译_自然语言处理

AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

谷歌的研究人员发布了AudioPaLM，这是一个大语言模型（LLM），可以通过语音传输执行文本转语音（TTS）、自动语音识别（ASR）和语音到语音翻译（S2ST）。AudioPaLM 是基于PaLM-2 LLM的，在翻译基准测试上优于OpenAI的Whisper。

AudioPaLM 是一个基于 Transformer 的纯解码器模型，它将文本和音频输入组合成单个嵌入表示。与使用离散 ASR、机器翻译（MT）和 TTS 模型等级联的传统 S2ST 模型不同，AudioPaLM 可以保留声学特征，例如说话者的声音。AudioPaLM 在 S2ST 和 ASR 基准测试中取得了最先进的成绩，并且还展示了零样本能力，对训练数据中不存在的输入和目标组合执行 ASR。在FLEURS数据集上进行评估时，AudioPaLM 在 ASR 任务上“显著”优于 OpenAI 的 Whisper。

InfoQ 最近报道了其他几个多语言人工智能语音模型。2022 年，OpenAI发布了Whisper，这是一个基于 Transformer 的编码器/解码器 ASR 模型，可以转录和翻译 97 种不同语言的语音音频。今年早些时候，Meta发布了MMS，这是一个基于 wav2vec 的模型，可以用 1100 多种语言进行 ASR 和 TTS。

与这些相比，AudioPaLM 是一个基于 Transformer 的纯解码器模型。它是基于预训练的 PaLM-2 的。然后，将模型的标记字典扩展为包括声学标记，声学标记表示音频波形的短片段。它们被映射到与原始模型中文本标记相同的嵌入空间中。然后，模型的输入可以包括音频和文本。文本输入包括任务的简短描述，例如“[ASR 意大利语]”。当模型的输出被解码时，可以使用AudioLM模型将声学标记转换回音频波形。

AudioPaLM 的架构图。图片来源：https://google-research.github.io/seanet/audiopalm/examples/

AudioPaLM 接受了来自 100 多种语言的数千小时的音频数据训练。它在多个基准上进行了评估，包括CoVoST2（AST）、CVSS（S2ST）和VoxPopuli（ASR）。它在 AST 和 S2ST 上的表现优于基线模型，在 ASR 上具有“竞争力”。在使用FLEURS基准的零样本 AST 中，AudioPaLM“显著”优于 Whisper。它在 ASR 任务上也优于 Whisper，Whisper 接受过 ASR 任务所涉及的语言的训练，而 AudioPaLM 没有。

研究人员还评估了 AudioPaLM 的音频生成质量，特别是在 S2ST 期间保留原始说话者的声音方面。他们结合“客观指标和主观评估研究”将其性能与基线模型进行比较，发现它“显著”优于基线。在他们的论文中，谷歌团队指出，需要更好的基准来衡量音频生成的质量：

与文本相比，生成文本/音频任务的既定基准集的丰富性还不够成熟。这项工作主要集中在语音识别和语音翻译，它们的基准比较成熟。为生成音频任务建立更多的基准和指标将有助于进一步加快该研究。

一些用户在 Hacker News 的帖子中讨论了AudioPaLM。在回答关于 LLM 翻译准确性的问题时，鉴于其会“产生幻觉”的倾向，一位用户表示，对于像 AudioPaLM 这样最先进的模型，幻觉“几乎不存在”。关于 AudioPaLM 的翻译，另一位用户观察到：

令人印象深刻的是，它将“Morgenstund hat Gold imMund”（早晨口中含金子）翻译成了相应的英语表达“早起的鸟儿有虫吃”，而不是直译。

AudioPaLM输出的若干示例可以在网上找到。

原文链接：

https://www.infoq.com/news/2023/07/google-audiopalm/

评论 1 条评论

发布

give your face

干翻同声传译

2023-08-02 17:03 · 北京

 0 回复

没有更多了

创作场景

谷歌语音人工智能 AudioPaLM，语音传输瞬间翻译

评论 1 条评论

面试官：你是怎样进行react组件代码复用的

Led透明显示屏的发展超乎你想象

Golang 编程“珠玑”

写过vue自定义指令吗，原理是什么？.m

美团前端必会vue面试题合集

构建云边端一体的分布式云架构，软硬结合驱动边缘计算创新场景

Unittest接口测试生成报告和日志方法

目前兰州市等保测评机构有几家？有新增的吗？

建设 TiDB 自动化平台：转转 DBA 团队实践

BeyondCampus-护航高校网络安全

Java 集合中的排序算法浅析

React源码分析3-render阶段(穿插scheduler和reconciler)

LR性能测试常见问题及处理方法（一）

SQL工具性能实测：居然比Navicat还快，数百万行数据导出仅51秒

自己手写一个redux

解读Teradata结束中国直营背后的原因！国产数据库能填补空缺吗？

腾讯前端一面经典手写面试题合集

React源码分析4-深度理解diff算法

【FAQ】集成分析服务的常见问题及解决方案

堡垒机行业标杆产品是哪家呢？有哪些功能？

LR性能测试常见问题及处理方法（二）

万亿级对象存储的元数据系统架构设计和实践

可视化分析能力MAX，瓴羊Quick BI带来全新数据分析体验

基于飞桨PaddleClas完成半导体晶圆图谱缺陷种类识别

面试官：说说React-SSR的原理

unittest中使用ddt后生成的测试报告名称如何修改？（如test_api_0修改成test_api_0_titile）

谈谈Linux内核的噪声

假如问：你是怎样优化Vue项目的，该怎么回答

百度前端必会react面试题总结

前端手写面试题总结

创作场景

谷歌语音人工智能 AudioPaLM，语音传输瞬间翻译

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载

推荐阅读