【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

Meta 开发出首个无文字语言 AI 翻译系统,闽南语翻译安排上了!

  • 2022-10-25
    北京
  • 本文字数:2685 字

    阅读完需:约 9 分钟

Meta开发出首个无文字语言AI翻译系统,闽南语翻译安排上了!

本文最初发布于 VentureBeat 博客。


人工语音翻译是一种新兴的人工智能(AI)技术。起初,这种语音翻译技术(S2ST)是为了帮助说不同语言的人进行交流而创建的,但现在,它已经进入了多个领域。例如,全球科技企业集团正使用 S2ST 直接翻译元宇宙中的共享文件和音频对话。


在上周的 Cloud Next ’22 大会上,谷歌宣布了自己的 AI 语音翻译模型“Translation Hub”。该模型使用了云翻译 API 和 AutoML 翻译。现在,Meta 也不甘落后。


近日,Meta AI 宣布启动通用语音翻译(UST)项目,旨在创建一个可以跨所有语言进行实时语音翻译的 AI 系统,甚至包括那些口语常用但书面语不常用的语言。


Meta 联合创始人兼首席执行官马克·扎克伯格说,“Meta AI 开发了首个语音翻译软件,主要用于口语而非书面语。它是开源的,这样人们就可以把它用于更多的语言”。


按照 Meta 的说法,该模型是首个人工智能语音翻译系统,用于非书面语言闽南语。闽南语是一种在中国东南沿海和台湾地区使用的语言,在世界各地的华人中,也有许多人在使用。该系统使得说闽南语的人可以与说英语的人进行对话,这是打破全球语言障碍的重要一步。它将促进人与人之间的交流,无论他们在哪里——甚至在元宇宙中。


这是一项艰巨的任务,因为与普通话、英语和西班牙语既是书面语言又是口头语言不同,闽南语主要是口头的。


AI 如何处理语音翻译


Meta 表示,目前的人工智能翻译模型主要关注广泛使用的书面语言,在主要的口头语言中,尚有超过 40% 没有被这种翻译技术所覆盖。在 2 月份举行的公司 AI Inside The Lab 活动上,扎克伯格分享了 Meta AI 针对网络上不常见的语言进行通用语音翻译研究的进展。UST 项目就是在此基础上开展的。那次活动的重点是使用这种沉浸式 AI 技术来构建元宇宙。


为了构建 UST,Meta AI 致力于克服翻译系统面临的三项关键挑战。他们获取了更多语言的更多训练数据,并找到了利用现有数据的新方法,解决了数据稀缺的问题。他们还解决了随着模型发展(支持更多语言)而产生的建模挑战。他们还找到了新的方法来评估和改进其结果。


Meta AI 的研究团队将闽南语作为端到端解决方案的一项案例研究,从训练数据收集和建模选择到基准数据集。该团队专注于创建人工标注数据,自动从大型无标签语音数据集中挖掘数据,并采用伪标签生成弱监督数据。


Meta 研究员 Juan Pino 表示:“我们团队首先将英语或闽南语的语音翻译成普通话文本,然后再将其翻译成闽南语或英语。然后,我们会将成对的句子添加到用于训练人工智能模型的数据中。”


在这段视频中,扎克伯格展示了该公司的人工智能语音翻译模型。


在建模方面,Meta AI 运用了该领域的最新进展,在语音翻译中使用自监督离散表示作为预测目标,并演示了在模型训练中附加来自普通话的文本监督的有效性。Meta AI 表示,他们还将发布一个语音翻译基准,以推动该领域未来的研究。


人工智能研究员、Lightning AI 首席执行官兼联合创始人 William Falcon 表示,人工语音翻译可以在元宇宙中发挥重要作用,因为它有助于促进交互和内容创造。


Falcon 告诉 VentureBeat,“在交互方面,它将使来自世界各地的人们相互之间更顺畅地交流,使社交图谱的联系更为紧密。此外,借助人工语音翻译可以轻松将内容本地化,以供多种语言消费。”


Falcon 认为,疫情大幅增加了远程办公的人数,以及对远程办公工具的依赖,这些因素共同推动了该领域的发展。显然,这些工具可以从语音翻译功能中受益。


他说,“很快,我们就有望在元宇宙中实现播客、Reddit AMA 或 Clubhouse 式的体验了。使用多种语言进行广播,大规模地增加潜在受众。”

Meta 通用语音翻译系统(UST)的工作原理


该模型使用 S2UT 将输入语音直接转换为该路径下的一系列声学单元,这是 Meta 之前开创的一种实现方式。生成的输出由来自输入单元的波形组成。此外,Meta AI 采用了 UnitY 的双通解码机制,即一通解码器生成相关语言(普通话)的文本,二通解码器创建单元。


为了实现闽南语的自动评估,Meta AI 开发了一个系统,将闽南语语音转录为一个名为“Tâi-lô”的标准化音标。这使得数据科学团队可以计算音节级的 BLEU 评分(一种标准的机器翻译指标),并快速比较不同方法的翻译质量。


具有单路和双路解码器的 UST 模型架构。阴影中的方块为预训练模块(图片来源:Meta AI)。


除开发了一种评估闽南语 - 英语语音翻译的方法外,该团队还创建了第一个闽南语 - 英语双向语音翻译基准数据集,该数据集基于闽南语语音语料库“Taiwanese Across Taiwan”。


Meta AI 声称,他们在闽南语中开创的技术可以扩展到许多其他非书面语言——并最终实现实时翻译。为此,Meta 发布了语音矩阵(Speech Matrix),这是一个大型的语音翻译语料库,可使用 Meta 的创新数据挖掘技术(LASER)进行挖掘。这将使其他研究团队能够创建他们自己的 S2ST 系统。


LASER 将多种语言的句子转换为单个多模式、多语言表示。该模型使用大规模多语言相似度搜索来识别语义空间中相似的句子,即不同语言中可能具有相同含义的句子。


从语音矩阵中挖掘出的数据提供了 41.8 万小时的并行语音用于翻译模型训练,覆盖了 272 个语言方向。到目前为止,已经挖掘出超过 8000 小时的闽南语语音以及相应的英语翻译。


语音翻译未来的机遇与挑战


目前,Meta AI 的重点是开发一个语音翻译系统,而且要不依赖于推理过程中生成的中间文本表示。事实证明,该方法比传统的级联系统(组合使用了独立的语音识别、机器翻译和语音合成模型)速度更快。

Synthesis AI 首席执行官兼创始人 Yashar Behzadi 认为,如果元宇宙要取得成功,就需要借助技术提供更多沉浸式的自然体验。


他指出,由于语言的广泛性、复杂性和语言之间存在的细微差别,UST 模型目前面临的挑战之一是训练所需的计算成本非常高昂。


他说,“训练健壮的 AI 模型需要大量的代表性数据。在不久的将来,构建这些 AI 模型的一个重要瓶颈将是收集、管理和标注符合隐私合规要求的训练数据。获取的数据不够多样化可能会导致偏见,对不同的人群产生不同的影响。新兴的合成语音和 NLP 技术有可能在实现更强大的模型方面发挥重要的作用。”


Meta 表示,随着效率的提高和架构的简化,直接进行语音到语音的翻译可以为 AR 眼镜等未来设备解锁接近人类质量的实时翻译功能。此外,该公司最近在无监督语音识别(wav2vecu)和无监督机器翻译(mBART)方面取得的进展将有助于在元宇宙中翻译更多的口头语言。


随着在无监督学习方面取得的进展,Meta 旨在打破现实世界和元宇宙中所有语言的语言障碍,无论是书面的还是非书面的。


原文链接:


https://venturebeat.com/ai/meta-ai-announces-first-ai-powered-speech-translation-system-for-an-unwritten-language

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-10-25 10:564729
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.1 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

Hutool中那些常用的工具类和实用方法 | 京东云技术团队

京东科技开发者

hutool java工具类 企业号10月PK榜

正式官宣|集成无界·RestCloud零代码集成自动化平台即将发布

RestCloud

mac电脑版多协议远程管理软件:Termius激活中文版

胖墩儿不胖y

SSH SSH工具 Mac软件 ssh客户端

数字货币去中心化交易所搭建开发 中心化交易所开发

西安链酷科技

区块链 数字货币 dapp 交易所 合约

WebSocket 原理详解:全方位解读

Apifox

程序员 最佳实践 websocket 协议 API

抢先体验!星河社区ERNIE Bot SDK现已支持文心大模型4.0

飞桨PaddlePaddle

开发工具 文心大模型 星河社区

软件测试|教你轻松解决pip安装下载超时问题

霍格沃兹测试开发学社

DWS临时内存不可用报错: memory temporarily unavailable

华为云开发者联盟

数据库 后端 华为云 科技 华为云开发者联盟

便携式ECG方案介绍

华秋电子

云起无垠典型案例入选《2023软件供应链安全洞察》报告

云起无垠

大模型训练中的Loss变化分析与优化策略

百度开发者中心

深度学习 大模型

软件测试|一文教你flask路由配置

霍格沃兹测试开发学社

软件测试|一文带你了解Flask框架

霍格沃兹测试开发学社

数字孪生智慧钢厂 Web3D 可视化管理平台

2D3D前端可视化开发

5G 物联网 可视化 数字孪生 智慧钢厂

基础软件是世界的事业 | 论数据库开源的力量

TiDB 社区干货传送门

TiDB实践安装及性能测试(下)

TiDB 社区干货传送门

迁移 管理与运维 备份 & 恢复 6.x 实践

PCB表面镀金工艺,还有这么多讲究!

华秋电子

CSS色域、色彩空间、CSS Color 4新标准 | 京东云技术团队

京东科技开发者

CSS 前端 浏览器 企业号10月PK榜

区块链挖矿系统-云算力挖矿模式APP平台介绍

西安链酷科技

区块链 算法 dapp 挖矿

新品研发协同平台,助力快消企业新品上市成功!

赛博威科技

数字化转型 新产品 茅台 产品研发

HAProxy安装及搭建tidb数据库负载均衡服务实战

TiDB 社区干货传送门

7.x 实践

数据安全法里面的数据是指什么?具体条例内容是什么?

行云管家

数据安全 数据安全法 数据运维 数据安全运维

WinX HD Video Converter for mac (视频格式转换器) 6.8.1激活版

mac

苹果mac Windows软件 视频转换器 WinX HD Video Converter

软件测试|程序猿必会的git操作(二)

霍格沃兹测试开发学社

你不知道的浏览器Console玩法

Kevin_913

前端 控制台 调试工具

通过NGINX搭建TiDB负载均衡

TiDB 社区干货传送门

安装 & 部署

TiDB实践安装及性能测试(上)

TiDB 社区干货传送门

安装 & 部署 性能测评 6.x 实践

记一次 TiDB v7.1 版本生产环境的完整搭建流程

TiDB 社区干货传送门

7.x 实践

支持信创的数据安全运维平台哪个好?咨询电话多少?

行云管家

信创 数据安全 国产 数据安全运维

玩转视图变量,轻松实现动态可视化数据分析

观测云

数据分析 可观测性 数据可视化

git 拉取分支后不想合并了

图颜有信

Meta开发出首个无文字语言AI翻译系统,闽南语翻译安排上了!_AI&大模型_Victor Dey_InfoQ精选文章