AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

谷歌语音人工智能 AudioPaLM,语音传输瞬间翻译

作者:Anthony Alford

  • 2023-08-02
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

谷歌语音人工智能AudioPaLM,语音传输瞬间翻译

谷歌的研究人员发布了AudioPaLM,这是一个大语言模型(LLM),可以通过语音传输执行文本转语音(TTS)、自动语音识别(ASR)和语音到语音翻译(S2ST)。AudioPaLM 是基于PaLM-2 LLM的,在翻译基准测试上优于OpenAI的Whisper


AudioPaLM 是一个基于 Transformer 的纯解码器模型,它将文本和音频输入组合成单个嵌入表示。与使用离散 ASR、机器翻译(MT)和 TTS 模型等级联的传统 S2ST 模型不同,AudioPaLM 可以保留声学特征,例如说话者的声音。AudioPaLM 在 S2ST 和 ASR 基准测试中取得了最先进的成绩,并且还展示了零样本能力,对训练数据中不存在的输入和目标组合执行 ASR。在FLEURS数据集上进行评估时,AudioPaLM 在 ASR 任务上“显著”优于 OpenAI 的 Whisper。


InfoQ 最近报道了其他几个多语言人工智能语音模型。2022 年,OpenAI发布了Whisper,这是一个基于 Transformer 的编码器/解码器 ASR 模型,可以转录和翻译 97 种不同语言的语音音频。今年早些时候,Meta发布了MMS,这是一个基于 wav2vec 的模型,可以用 1100 多种语言进行 ASR 和 TTS。


与这些相比,AudioPaLM 是一个基于 Transformer 的纯解码器模型。它是基于预训练的 PaLM-2 的。然后,将模型的标记字典扩展为包括声学标记,声学标记表示音频波形的短片段。它们被映射到与原始模型中文本标记相同的嵌入空间中。然后,模型的输入可以包括音频和文本。文本输入包括任务的简短描述,例如“[ASR 意大利语]”。当模型的输出被解码时,可以使用AudioLM模型将声学标记转换回音频波形。



AudioPaLM 的架构图。图片来源:https://google-research.github.io/seanet/audiopalm/examples/


AudioPaLM 接受了来自 100 多种语言的数千小时的音频数据训练。它在多个基准上进行了评估,包括CoVoST2(AST)、CVSS(S2ST)和VoxPopuli(ASR)。它在 AST 和 S2ST 上的表现优于基线模型,在 ASR 上具有“竞争力”。在使用FLEURS基准的零样本 AST 中,AudioPaLM“显著”优于 Whisper。它在 ASR 任务上也优于 Whisper,Whisper 接受过 ASR 任务所涉及的语言的训练,而 AudioPaLM 没有。


研究人员还评估了 AudioPaLM 的音频生成质量,特别是在 S2ST 期间保留原始说话者的声音方面。他们结合“客观指标和主观评估研究”将其性能与基线模型进行比较,发现它“显著”优于基线。在他们的论文中,谷歌团队指出,需要更好的基准来衡量音频生成的质量:


与文本相比,生成文本/音频任务的既定基准集的丰富性还不够成熟。这项工作主要集中在语音识别和语音翻译,它们的基准比较成熟。为生成音频任务建立更多的基准和指标将有助于进一步加快该研究。


一些用户在 Hacker News 的帖子中讨论了AudioPaLM。在回答关于 LLM 翻译准确性的问题时,鉴于其会“产生幻觉”的倾向,一位用户表示,对于像 AudioPaLM 这样最先进的模型,幻觉“几乎不存在”。关于 AudioPaLM 的翻译,另一位用户观察到:


令人印象深刻的是,它将“Morgenstund hat Gold imMund”(早晨口中含金子)翻译成了相应的英语表达“早起的鸟儿有虫吃”,而不是直译。


AudioPaLM输出的若干示例可以在网上找到。


原文链接:

https://www.infoq.com/news/2023/07/google-audiopalm/


2023-08-02 10:363332

评论 1 条评论

发布
用户头像
干翻同声传译
2023-08-02 17:03 · 北京
回复
没有更多了
发现更多内容

面试官:你是怎样进行react组件代码复用的

beifeng1996

React

Led透明显示屏的发展超乎你想象

Dylan

LED 显示器 LED显示屏

Golang 编程“珠玑”

MatrixOrigin

golang 分布式数据库 编程语言 MatrixOrigin MatrixOne

写过vue自定义指令吗,原理是什么?.m

bb_xiaxia1998

Vue

美团前端必会vue面试题合集

bb_xiaxia1998

Vue

构建云边端一体的分布式云架构,软硬结合驱动边缘计算创新场景

百度开发者中心

云原生 边缘计算 #百度智能云#

Unittest接口测试生成报告和日志方法

日志 单元测试 自动化测试 unittest 测试报告

目前兰州市等保测评机构有几家?有新增的吗?

行云管家

等保 等级保护 等保测评 兰州

建设 TiDB 自动化平台:转转 DBA 团队实践

PingCAP

数据库 自动化 TiDB

BeyondCampus-护航高校网络安全

权说安全

网络安全 零信任

Java 集合中的排序算法浅析

京东科技开发者

jdk 后端 Java、 排序算法 企业号 2 月 PK 榜

React源码分析3-render阶段(穿插scheduler和reconciler)

goClient1992

React

LR性能测试常见问题及处理方法(一)

性能测试 问题排查 LoadRunner

SQL工具性能实测:居然比Navicat还快,数百万行数据导出仅51秒

雨果

sql 数据库管理工具 Web SQL sql studio

自己手写一个redux

helloworld1024fd

JavaScript

解读Teradata结束中国直营背后的原因!国产数据库能填补空缺吗?

雨果

数据库管理工具 国产数据库 teradata SQL工具

腾讯前端一面经典手写面试题合集

helloworld1024fd

JavaScript

React源码分析4-深度理解diff算法

goClient1992

React

【FAQ】集成分析服务的常见问题及解决方案

HarmonyOS SDK

HMS Core

堡垒机行业标杆产品是哪家呢?有哪些功能?

行云管家

网络安全 信息安全 等保 堡垒机

LR性能测试常见问题及处理方法(二)

性能测试 问题排查 LoadRunner

万亿级对象存储的元数据系统架构设计和实践

百度开发者中心

对象存储 文件存储 百度沧海

可视化分析能力MAX,瓴羊Quick BI带来全新数据分析体验

对不起该用户已成仙‖

基于飞桨PaddleClas完成半导体晶圆图谱缺陷种类识别

飞桨PaddlePaddle

paddle 开源 飞桨

面试官:说说React-SSR的原理

beifeng1996

React

unittest中使用ddt后生成的测试报告名称如何修改?(如test_api_0修改成test_api_0_titile)

单元测试 自动化测试 unittest 参数化 ddt

谈谈Linux内核的噪声

统信软件

Linux 内核

假如问:你是怎样优化Vue项目的,该怎么回答

bb_xiaxia1998

Vue

百度前端必会react面试题总结

beifeng1996

React

前端手写面试题总结

helloworld1024fd

JavaScript

谷歌语音人工智能AudioPaLM,语音传输瞬间翻译_自然语言处理_InfoQ精选文章