【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

跨语言的多模态、多任务检索模型 MURAL 解读

  • 2021-12-20
  • 本文字数:3304 字

    阅读完需:约 11 分钟

跨语言的多模态、多任务检索模型MURAL解读

通常,从一种语言到另一种语言没有直接的一对一翻译。即使有这样的翻译,它们也不一定准确对于非母语人士来说,不同的联想和内涵很容易丢失。但是,在这种情况下,如果是基于可视化的实例,其含义可能会更为清晰。


就拿“wedding”(婚礼)这个单词来说吧。在英语中,人们通常会联想到穿着白裙的新娘和穿着燕尾服的新郎,但是翻译成印地语(शादी)时,更恰当的联想可能是穿着鲜艳色彩的新娘和穿着高领长外套(印度男装 Sherwani)的新郎。对于这个单词,每个人的联想可能有很大的不同,但是如果给他们一个想要表达的概念的图像,它的意义就会更清楚。


“婚礼”这个单词在英语和印地语中表现出不同的心理意象。


随着当前神经机器翻译和图像识别技术的发展,在翻译过程中可以通过提供一段文本和一幅支持图像来减少这种歧义。已有的研究已经在高资源语言(如英语)学习图像-文本联合表示方面取得了很大进展。这些表示模型努力将图像和文本编码为共享嵌入空间的向量,使得图像和描述它的文本在这个空间中相互接近。ALIGNCLIP 表明,当有足够的训练数据时,在图像-文本对上使用对比学习损失来训练双编码器模型(即通过两个独立的编码器训练的模型),效果非常好。

 

遗憾的是,对于大多数语言来说,这类图像-文本对数据的规模并不相同。实际上,90% 以上的这类网络数据属于资源丰富的前十种语言,比如英语和汉语,而资源不足的语言的数据则少得多。要解决这一问题,我们可以试着为资源不足的语言手动收集图像-文本对数据,但是由于这项工作的规模,难度太大,或者我们可以设法利用现有的数据集(例如翻译对),这类数据集能够为多种语言提供必要的学习表示。

 

EMNLP 2021 提交的论文《MURAL:跨语言的多模态、多任务检索》(MURAL: Multimodal, Multitask Retrieval Across Languages)中,我们描述了一种用于图像-文本匹配的表示模型,该模型将多任务学习应用于图像-文本对,并与涵盖 100 多种语言的翻译对相结合。这项技术允许用户通过图像来表达那些不能直接翻译成目标语言的词语。例如,“valiha”一词是指马尔加什人所演奏的一种管状乐器,在大多数语言中不会有直接的翻译,但是可以通过图像轻松地描述出来。在实践中,MURAL 表现了比最先进的模型、其他基准和竞争基线全面持续改进。而且,MURAL 在它所测试的大多数资源不充足的语言中表现良好。此外,我们还发现了由 MURAL 表示学到的有趣的语言相关性。

MURAL 架构

 

MURAL 架构是基于 ALIGN,但以多任务的方式使用。ALIGN 使用双编码器架构将图像和相关文本描述的表示结合起来,而 MURAL 使用双编码器架构来实现同样的目标,并通过合并翻译对将其扩展到其他语言。图像-文本对的数据集与 ALIGN 所用的数据集相同,而翻译对则是用于 LaBSE 的数据集。


MURAL 解决了两个对比学习任务:

1)图像-文本匹配;

2)文本-文本(平行文本)匹配。


这两项任务共享文本编码器模块。该模型从图像-文本数据中学习图像和文本之间的联系,以及从翻译对中学习数百种不同语言的表示。其思想是,共享编码器将把从高资源语言中学到的图像-文本关联转移到低资源语言。结果表明,最好的模型使用了 EfficientNet-B7 图像编码器和 BERT-large 文本编码器,这两者都是从头开始训练。所学到的表示可用于下游的视觉和视觉语言任务。



MURAL 架构描述了双编码器,两个任务之间有一个共享的文本编码器,使用对比学习损失进行训练。

多语言图像到文本和文本到图像检索

 

为了展示 MURAL 的能力,我们选择了跨模态检索的任务(即基于文本检索相关的图像,反之亦然),并报告了在各种学术图像-文本数据集上的得分,这些数据集涵盖了资源丰富的语言,如 MS-COCO(及其日文变体 STAIR)、Flickr30K(英语)和 Multi30K(扩展到德语、法语、捷克语)、XTD(仅测试集,包含七种资源丰富的语言:意大利语、西班牙语、俄语、汉语、波兰语、土耳其语和韩语)。


除了资源丰富的语言外,我们还在最近发布的维基百科图像文本(Wikipedia Image–Text,WIT)数据集上对 MURAL 进行了评估,该数据集涵盖了 108 种语言,包括资源丰富(英语、法语、汉语等)和资源不足(斯瓦希里语、印地语等)的语言。

 

MURAL 在对资源丰富和资源不足的语言进行评估时,无论是在零样本学习设置还是微调设置方面,MURAL 总是优于先前 M3PUC2ALIGN 等最先进的模型。我们发现,相对于最先进的模型 ALIGN,资源不足的语言有着显著的性能提升。


各种多语言图像-文本检索基准的平均召回率。


平均召回率是用于评估图像-文本数据集的跨模态检索性能的常用指标(越高越好)。它衡量的是六个测量值的平均值的 Recall@N(即基础真理图像出现在前 N 个检索图像中的概率):N=[1, 5, 10] 的图像→文本和文本→图像检索。请注意,XTD 的分数报告了文本→图像检索为 Recall@10。

检索分析

 

我们还分析了 WIT 数据集上的零样本检索实例,比较了 ALIGN 和 MURAL 对英语(en)和印地语(hi)的检索。MURAL 比 ALIGN 具有更好的检索性能,反映了对文本语义的较好把握,如印地语等资源不足的语言。



在 WIT 数据集的文本→图像检索任务中,用 ALIGN 和 MURAL 检索到的前 5 张图像的比较,以印地语文本为例。在 WIT 数据集的文本→图像检索任务中,ALIGN 和 MURAL 对印度语文本进行了比较,印度语文本是:“एकतश्तरी परबिना मसाले या सब्ज़ी के रखी ह सादी स्पगॅत्ती”,翻译成英文是“A bowl containing plain noodles without any spices or vegetables”(一碗没有任何香料或蔬菜的普通面条)。


甚至对于像法语这样资源丰富的语言中的图像→文本检索,MURAL 也显示出对某些单词有更好的理解。例如,MURAL 对 “cadran solaire”(法语,英文为“sundial”(日晷))的查询的结果比 ALIGN 要好,因为后者检索不到任何描述日晷的文本(如下图)。


同一张日晷图片上,ALIGN 和 MURAL 在图片→文本检索任务中的前 5 个文本结果的比较。

嵌入可视化

 

此前,研究人员已经表明,模型嵌入的可视化能够揭示语言之间的有趣联系——例如,由神经机器翻译(neural machine translation,NMT)模型学习的表示已经被证明可以根据它们在某一语言系属分类中的成员身份来形成集群。对于属于日耳曼语系、罗曼语系、斯拉夫语系、乌拉尔语系、芬兰语系、凯尔特语系和芬兰-乌戈尔语系(在欧洲和西亚广泛使用)的一个语言子集进行了类似的可视化处理。我们将 MURAL 的文本嵌入与 LaBSE 的文本嵌入进行比较,后者是一个纯文本的编码器。

 

LabSE 的嵌入图显示了受语言系属分类影响的不同语言集群。例如,罗曼语(紫色,下同)与斯拉夫语(棕色,下同)属于不同的区域。这一发现与之前研究由 NMT 系统学习的中间表示的研究结果相吻合。

35 种语言的 LaBSE 文本表示的可视化。


语言根据其谱系关系用颜色编码。代表性的语言有:日耳曼语(红色)——德语、英语、荷兰语;乌拉尔语(橙色)——芬兰语、爱沙尼亚语;斯拉夫语(棕色)——波兰语、俄语;罗曼语(紫色)——意大利语、葡萄牙语、西班牙语;盖尔语(蓝色)——威尔士语、爱尔兰语。

 

相对于 LaBSE 的可视化,MURAL 的嵌入更注重多模态的学习,表现出一些符合区域语言学(某一地理区域内的语言或方言共享元素)和接触语言学(语言或方言相互影响)的集群。


值得一提的是,在 MURAL 嵌入空间中,罗马尼亚语(ro)比 LaBSE 更接近保加利亚语(bg)和马其顿语(mk)等斯拉夫语言,这符合巴尔干语言联盟的情况。另外一种可能的语言接触是芬兰语,爱沙尼亚语(et)和芬兰语(fi),它们更接近斯拉夫语言集群。MURAL 以图像和翻译为轴心这一事实似乎为语言关联性增添了额外的观点,因为它是在深度表示中学习的,超越了在纯文本环境中观察到的语族集群。

35 种语言的 MURAL 文本表示的可视化。颜色编码与上图相同。

结语


我们的研究结果表明,使用翻译对进行联合训练可以有效地克服许多资源不足的语言中图像-文本对的稀缺性,并提高跨模态性能。此外,在使用多模态模型学习的文本表示中,观察区域语言学和接触语言学的提示也很有意思。因此,需要进一步探索通过多模态模型(如 MURAL)隐式学习到的各种联系。


最后,我们希望这项工作能促进多模态、多语言空间的深入研究,在这个空间里,模型学习语言的表示和语言之间的联系(通过图像和文本表示),而不仅仅是资源丰富的语言。

 

作者介绍:

 

Aashi Jain, 谷歌 AI Resident 成员。

Yinfei Yang,谷歌研究院研究科学家。

 

原文链接:


https://ai.googleblog.com/2021/11/mural-multimodal-multi-task-retrieval.html

2021-12-20 15:032628

评论

发布
暂无评论
发现更多内容

新手站长如何选择云服务器?华为云耀云服务器L实例值得拥有

轶天下事

一文读懂分布式 NFT数据网络 Bitscrunch

股市老人

虚拟服务器的应用场景

Geek_f19a80

服务器

Mac电脑强大的数据备份软件 Get Backup Pro 3注册码激活版

mac大玩家j

Mac软件 备份软件 数据备份恢复软件

Util应用框架基础(一)依赖注入

何镇汐

开源 后端

Mac电脑触控板增强软件 Bettertouchtool激活中文版

mac大玩家j

Mac软件

Go,14周年

Tony Bai

Go golang 编程 编程语言 go语言

小程序是什么?如何开发小程序?

Geek_16d138

小程序开发,软件开发

运行ps\ai弹出This non-genuine Adobe app will be disabled soon,尝试解决办法

展初云

adobe Mac软件

Inklet for Mac(触控板绘画工具)

展初云

Mac软件 触控板增强 绘画工具

英特尔CEO:将按计划或提前完成“四年五个制程节点”,明年将公布新计划

E科讯

Tower 10.11.1 macOS下Git版本控制客户端

晴雯哥

Macos网络文件安全共享工具:Dropshare 5 「支持M1」

彩云

Dropshare 5

Util应用框架核心(三)- 服务注册器

何镇汐

开源 后端

Util应用框架基础(二)- 面向切面编程(AOP)

何镇汐

开源 后端

Util应用框架基础(五)- 异常处理

何镇汐

开源 后端

Get Backup Pro 3 注册激活版 附 完整安装教程 支持M1

加油,小妞!

数据恢复 Get Backup Pro 3

Mac电脑窗口辅助管理推荐 Magnet激活中文版

胖墩儿不胖y

Mac软件 窗口管理工具 窗口辅助软件

Util应用框架核心(一)- 服务配置

何镇汐

开源 后端

Util应用框架核心(二)- 启动器

何镇汐

开源 后端

Util应用框架基础(三)- 对象到对象映射

何镇汐

开源 后端

文心耀乌镇,“大模型之光”展现了什么?

脑极体

AI

Util应用框架基础(四)- 验证

何镇汐

开源 后端

Things 3 for Mac(日程和任务管理工具)

展初云

Mac软件 任务管理软件 待办记事软件 Things

Adobe Illustrator 2024 for mac v28.0 AI mac破解版下载,矢量图形设计工具

晴雯哥

Transmit for mac 5.10.3 macOS最好用的Ftp/SFtp工具

晴雯哥

开发人员的私人助手:亚马逊CodeWhisperer

阿呆

Amazon CodeWhisperer

Macos人工智能转录工具:AI Transcription for mac激活版 支持M1/M2

加油,小妞!

AI Transcription 人工智能语音转录工具

mac电脑端Git客户端 Fork 激活最新版

胖墩儿不胖y

git Mac软件 Git客户端

CodeWhisperer 史上最强大的 AI 编程助手!!

亚马逊云科技 (Amazon Web Services)

Java Python 人工智能 云上探索实验室 Amazon CodeWhisperer

Get Backup Pro 3 注册密钥激活 附 安装教程 支持M1

彩云

数据备份 Get Backup Pro 3

跨语言的多模态、多任务检索模型MURAL解读_AI&大模型_Aashi Jain_InfoQ精选文章