AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

谷歌语音人工智能 AudioPaLM,语音传输瞬间翻译

作者:Anthony Alford

  • 2023-08-02
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

谷歌语音人工智能AudioPaLM,语音传输瞬间翻译

谷歌的研究人员发布了AudioPaLM,这是一个大语言模型(LLM),可以通过语音传输执行文本转语音(TTS)、自动语音识别(ASR)和语音到语音翻译(S2ST)。AudioPaLM 是基于PaLM-2 LLM的,在翻译基准测试上优于OpenAI的Whisper


AudioPaLM 是一个基于 Transformer 的纯解码器模型,它将文本和音频输入组合成单个嵌入表示。与使用离散 ASR、机器翻译(MT)和 TTS 模型等级联的传统 S2ST 模型不同,AudioPaLM 可以保留声学特征,例如说话者的声音。AudioPaLM 在 S2ST 和 ASR 基准测试中取得了最先进的成绩,并且还展示了零样本能力,对训练数据中不存在的输入和目标组合执行 ASR。在FLEURS数据集上进行评估时,AudioPaLM 在 ASR 任务上“显著”优于 OpenAI 的 Whisper。


InfoQ 最近报道了其他几个多语言人工智能语音模型。2022 年,OpenAI发布了Whisper,这是一个基于 Transformer 的编码器/解码器 ASR 模型,可以转录和翻译 97 种不同语言的语音音频。今年早些时候,Meta发布了MMS,这是一个基于 wav2vec 的模型,可以用 1100 多种语言进行 ASR 和 TTS。


与这些相比,AudioPaLM 是一个基于 Transformer 的纯解码器模型。它是基于预训练的 PaLM-2 的。然后,将模型的标记字典扩展为包括声学标记,声学标记表示音频波形的短片段。它们被映射到与原始模型中文本标记相同的嵌入空间中。然后,模型的输入可以包括音频和文本。文本输入包括任务的简短描述,例如“[ASR 意大利语]”。当模型的输出被解码时,可以使用AudioLM模型将声学标记转换回音频波形。



AudioPaLM 的架构图。图片来源:https://google-research.github.io/seanet/audiopalm/examples/


AudioPaLM 接受了来自 100 多种语言的数千小时的音频数据训练。它在多个基准上进行了评估,包括CoVoST2(AST)、CVSS(S2ST)和VoxPopuli(ASR)。它在 AST 和 S2ST 上的表现优于基线模型,在 ASR 上具有“竞争力”。在使用FLEURS基准的零样本 AST 中,AudioPaLM“显著”优于 Whisper。它在 ASR 任务上也优于 Whisper,Whisper 接受过 ASR 任务所涉及的语言的训练,而 AudioPaLM 没有。


研究人员还评估了 AudioPaLM 的音频生成质量,特别是在 S2ST 期间保留原始说话者的声音方面。他们结合“客观指标和主观评估研究”将其性能与基线模型进行比较,发现它“显著”优于基线。在他们的论文中,谷歌团队指出,需要更好的基准来衡量音频生成的质量:


与文本相比,生成文本/音频任务的既定基准集的丰富性还不够成熟。这项工作主要集中在语音识别和语音翻译,它们的基准比较成熟。为生成音频任务建立更多的基准和指标将有助于进一步加快该研究。


一些用户在 Hacker News 的帖子中讨论了AudioPaLM。在回答关于 LLM 翻译准确性的问题时,鉴于其会“产生幻觉”的倾向,一位用户表示,对于像 AudioPaLM 这样最先进的模型,幻觉“几乎不存在”。关于 AudioPaLM 的翻译,另一位用户观察到:


令人印象深刻的是,它将“Morgenstund hat Gold imMund”(早晨口中含金子)翻译成了相应的英语表达“早起的鸟儿有虫吃”,而不是直译。


AudioPaLM输出的若干示例可以在网上找到。


原文链接:

https://www.infoq.com/news/2023/07/google-audiopalm/


2023-08-02 10:363320

评论 1 条评论

发布
用户头像
干翻同声传译
2023-08-02 17:03 · 北京
回复
没有更多了
发现更多内容

Omnissa Dynamic Environment Manager 2503 - 个性化动态 Windows 桌面环境管理

sysin

horizon

Omnissa Horizon Windows OS Optimization Tool 2503 - Windows 系统映像优化工具

sysin

horizon

寻找AI大模型时代的存力破壁人:华为的行与思

脑极体

软件

企业AI转型遇算力瓶颈?苏州TOP3机房服务器托管方案实测报告

苏州服务器托管

苏州服务器托管 苏州IDC

大语言模型助力 Support Case 分析,提升云服务效率

亚马逊云科技 (Amazon Web Services)

AI狂飙时代,我们测试工程师会被"优化"吗?

测试人

人工智能

APSEZ收购NQXT Australia

财见

AI英语能力评估APP的核心功能

北京木奇移动技术有限公司

AI教育 软件外包公司 AI技术应用

五一前再带大家卷一波Go高质量面试题

王中阳Go

Go

CST干货:移动电子设备的射频干扰和接收灵敏度分析

思茂信息

cst CST软件 CST Studio Suite

北京邮电大学鲲鹏昇腾科教创新孵化中心成立 为ICT创新突破再“聚能赋力”

极客天地

得物增长兑换商城的构架演进

得物技术

#算法 游戏架构

SvelteKit 最新中文文档教程(23)—— CLI 使用指南

冴羽

前端 前端框架 React Svelte SvelteKit

Omnissa App Volumes 4, version 2503 - 实时应用程序交付系统

sysin

horizon

VMware ESXi 8.0U3e macOS Unlocker & OEM BIOS Lenovo (联想) 定制版

sysin

esxi

docker镜像仓库

不在线第一只蜗牛

Docker

电竞新时代:ToDesk/网易云/START三大云游戏平台深度横评,谁是真王者?

小喵子

云计算 云电脑 ToDesk 云电竞 网易云游戏电脑

深度解析!淘宝商品详情 API 接口的高效调用与实战应用

tbapi

淘宝数据采集 淘宝API 天猫商品详情接口 淘宝商品详情API 淘宝数据分析

一文读懂天猫商品详情 API 接口:功能、调用与实战攻略

tbapi

天猫商品详情接口 天猫API 天猫商品数据采集 天猫数据采集

贝尔金在范围一和范围二排放中实现碳中和

财见

AI 教育软件的开发

北京木奇移动技术有限公司

AI教育 软件外包公司 AI技术外包公司

与地球和鸣:华为音乐以空间音频为桥连接自然之声

最新动态

Easysearch Rollup 相比 OpenSearch Rollup 的优势分析

极限实验室

Rollup Performance easysearch OpenSearch

哈佛最新研究:比特币挖矿造成环境污染,190万人受影响

PowerVerse

比特币 挖矿

Omnissa ThinApp 2503 - 应用虚拟化软件

sysin

horizon

审计在等保测评中的重要性

黑龙江陆陆信息测评部

AI智上 | 数智预算:一级央企集中化预算应用领先实践

用友智能财务

手把手教你酒店LED显示屏该怎么选!

Dylan

LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家 户内led显示屏

人工智能 (AI) 技术在英语教育中的应用

北京木奇移动技术有限公司

AI教育 软件外包公司 AI技术应用

不用写代码!2个小时,我自己搭了一套进销存系统,业务效率翻倍!

中烟创新

人工智能与预测性维护:AI如何帮助企业降低设备故障风险?

天津汇柏科技有限公司

人工智能 预测性维护

谷歌语音人工智能AudioPaLM,语音传输瞬间翻译_自然语言处理_InfoQ精选文章