写点什么

如何高效实现图片搜索?Dropbox 的核心方法和架构优化实践

Thomas Berg

  • 2021-06-30
  • 本文字数:4579 字

    阅读完需:约 15 分钟

如何高效实现图片搜索?Dropbox的核心方法和架构优化实践

照片是 Dropbox 中最常见的文件类型之一,但是按文件名搜索它们的效率甚至低于基于文本的文件搜索效率。当你寻找一张几年前某次野餐拍摄的照片时,你肯定不记得相机设置的文件名是“2017-07-0412.37.54.jpg”。

 

相比之下,你会查看每张照片或它们的缩略图,并尝试找出与搜索内容相匹配的对象或内容——不管你是要从库中找出一张照片,还是要从公司存档里找出一张合适的照片为新的促销活动当素材,流程都是差不多的。如果 Dropbox 可以代替你来查阅所有这些图像,并找出与你指定的几个描述性词汇最匹配的图像,这岂不是非常方便?这基本就是我们的图像搜索所要做的事情。

 

图像内容“野餐”的搜索结果

 

在这篇文章中,我们将基于机器学习中的技术描述图像内容搜索方法背后的核心思想,然后讨论如何在 Dropbox 现有的搜索基础架构上构建高效的实现。

我们的方法


下面是解决图像搜索问题的一种简单方法:找到一个关联函数,该函数需要一个(文本)查询 q 和一个图像 j,然后返回一个关联分数 s,以表明该图像与查询的匹配程度。


s=f(q, j)


有了这个函数以后,当用户进行搜索时,我们将在所有图像上运行这个搜索,然后返回得分高于一个阈值的图像(按得分排序)。我们使用机器学习领域中的两个关键成果来构建这个函数:准确的图像分类和词向量。

图像分类


图像分类器读取图像并输出一个描述其内容的类别打分列表。较高的分数表示图像属于该类别的可能性较高。

 

类别可以是:

 

  • 图像中的特定对象,例如树或人

  • 整体场景描述,例如户外活动或婚礼

  • 图像本身的特征,例如黑白或特写

 

在过去的十年中,使用卷积神经网络分类图像的方法取得了巨大进展,这一趋势始于 Krizhevsky 等人在 2012 年 ImageNet 挑战赛中取得的突破性成果。此后,随着模型架构的改进,以及更好的训练方法、大型数据集(如 OpenImages 或 ImageNet)和像 TensorFlow/PyTorch 这样易用的库的出现,研究人员已经构建了可以识别数千个类别的图像分类器。

 

看看今天的图像分类效果如何:

图像分类器对一张典型的未分类照片的输出结果

 

图像分类使我们能够自动了解图像中的内容,但是仅凭这一点还不足以实现搜索。当然,如果用户搜索的是“海滩(beach)”,我们可以返回该类别得分最高的图像;但如果他们搜索的是“海岸(shore)”该怎么办?如果他们搜索的不是“苹果(apple)”,而是“水果(fruit)”或“澳洲青苹果(granny smith)”该怎么办?

 

我们可以整理出一个大型的同义词和近义词字典以及单词之间的层次关系,但这种方法很快就会变得笨重难用,尤其是在我们还要支持多种语言的情况下。

词向量


因此我们要重构问题。我们可以将图像分类器的输出解释为每个类别得分的一个向量 j「c」(本文中用「」表示下标,用【】表示上标)。此向量将图像的内容表示为 C 维类别空间中的一个点,其中 C 是类别的数量(数千个)。如果我们可以在该空间中提取查询的一个有意义的表示形式,就可以解析图像向量与查询向量的接近程度,进而衡量图像与查询的匹配程度。

 

幸运的是,提取文本的向量表示是自然语言处理中的研究重点。Mikolov 等人在 2013 年的 word2vec 论文中介绍了该领域的一种最知名的方法。Word2vec 为字典中的每个单词分配一个向量,这样含义相似的单词将具有彼此接近的向量。这些向量位于 d 维词向量空间中,其中 d 一般有几百之多。

 

我们可以简单地查询 word2vec 向量来获得搜索查询的向量表示。该向量不在图像分类器向量的类别空间中,但是我们可以参考图像类别的名称将其转换为类别空间,如下所示:

 

  1. 对于查询词 q,获取归一化为一个单位向量的 d 维词向量 q「w」。我们将在词空间中对向量使用一个 w 下标,对类别空间中的向量使用 c 下标。

  2. 对于每个类别,获取类别名称 c【i】「w」的归一化词向量。然后定义 m̂【i】=q「w」·c【i】「w」,即查询向量和第 i 个类别向量之间的余弦相似度。介于-1 和 1 之间的分数表示查询词与类别名称的匹配程度。我们将负值裁剪为零,从而使 m【i】=max(0, m̂【i】),这样就可以获得与图像分类器输出相同范围的分数。

  3. 之后我们可以计算 q「c」=[m【1】 m【2】... m【C】],这是 C 维类别空间中的一个向量,表示查询与每个类别的匹配程度,就像每个图像的图像分类器矢量表示图像与每个类别的匹配程度一样。

 

步骤 3 只是一个向量矩阵乘法 q「c」=q「w」C,其中 C 是矩阵,其列为类别词向量 c【i】「w」。

 

一旦将查询映射到类别空间向量 q「c」,我们就可以获取每个图像与类别空间向量的余弦相似度,以获取图像的最终相关性分数 s=q「c」j「c」。

 

这是我们的相关性函数,我们根据这个分数对图像排名,以显示查询结果。此函数应用在一组图像上也可以表示为一个向量矩阵乘法 s=q「c」J,其中 J 的每一列是一张图像的分类器输出向量 j「c」,s 是所有图像的相关性得分向量。

举个例子


我们来看一个只有几个维度的示例,其中词向量只有三个维度,而分类器只有四个类别:苹果、沙滩、毯子和狗。

 

假设用户搜索的是“海岸”。我们查询词向量,获得[0.35 -0.62 0.70],然后乘以类别词向量矩阵,以将查询投影到类别空间中。

 

由于“海岸”的词向量接近“海滩”的词向量,因此这个投影在海滩类别中有很大的值。

将查询词向量投影到类别空间中

建模细节


我们的图像分类器是在 OpenImages 数据集上训练的一个 EfficientNet 网络。它生成约 8500 个类别的分数。我们发现,这种架构和数据集以合理的成本提供了良好的准确度,因为我们要为 Dropbox 如此大规模的客户群提供服务,所以这非常重要。

 

我们使用 TensorFlow 训练和运行模型。我们使用预训练的 ConceptNet Numberbatch 词向量。它们提供了良好的结果,并且对我们而言很重要的是它们支持多种语言,对于具有相似含义的不同语种的单词返回相似的向量。这样我们就可以很容易地支持多种语言的图像内容搜索:英语中的 dog 和法语中的 chien 的词向量相似,因此我们不用做显式翻译就可以支持两种语言的搜索。

 

对于多词搜索,我们将查询解析为各个词的一个 AND。我们还会维护一个多词术语列表,例如“沙滩球”就可以视为单个词。当查询包含这些术语之一时,我们将做一个备用解析并运行两个已解析查询的 OR,于是“沙滩球”这个查询将变为(沙滩 AND 球)OR(沙滩)。这将同时匹配沙滩上的“大球”“彩色球”“充气球”和“网球”等结果。

生产架构


每当用户进行搜索时,获取完整的最新 J 矩阵都是不切实际的。用户可能可以访问数十万甚至数百万个图像,并且我们的分类器输出具有数千个维度,因此该矩阵可能有数十亿个条目,且每当用户添加、删除或修改图像时都需要更新。对于数亿规模的用户群而言,我们(还)无法负担得起背后的成本。

 

因此,我们不是为每个查询实例化 J,而是使用上述方法的一种近似方法,可以在 Dropbox 的 Nautilus 搜索引擎上有效地实现。

 

从概念上讲,Nautilus 包括将每个文件映射到某些元数据(例如文件名)和文件全文的一个前向索引,以及将每个单词映射到包含该单词的所有文件的一个发布列表的反向索引。对于基于文本的搜索,一些配方文件的索引内容可能是这样的:


 

在基于文本的搜索中搜索索引内容

 

如果用户搜索“白葡萄酒(white wine)”,我们将在倒排索引中查找两个词,发现 doc_1 和 doc_2 都包含这两个词,因此我们应将它们包含在搜索结果中。Doc_3 只有一个词,因此我们应该将其省略或放在结果列表的最后。

 

找到所有可能要返回的文档后,我们在前向索引中查找它们,并使用那里的信息对它们进行排名和过滤。在本例中,我们可能让 doc_1 的排名高于 doc_2,因为这两个词彼此相邻。

将文本搜索方法用于图像搜索


我们可以使用相同的系统来实现我们的图像搜索算法。在前向索引中,我们可以存储每张图像的类别空间向量 j「c」。在倒排索引中,对于每个类别,我们存储该类别的一个具有正分数的图像发布列表。


在图像内容搜索中搜索索引内容

 

因此,当用户搜索“野餐”时:

 

  1. 查找“野餐”的词向量 q「w」,然后乘以类别空间投影矩阵 C 以获得 q「c」,如上所述。C 是对所有用户都相同的固定矩阵,因此我们可以将其保存在内存中。

  2. 对于每个在 q「c」中具有非零条目的类别,从倒排索引中获取发布列表。这些列表的并集是匹配图像的搜索结果集,但仍需要对这些结果进行排名。

  3. 对于每个搜索结果,从前向索引中提取类别空间向量 j「c」并乘以 q「c」以获得相关性分数 s。返回分数高于某个阈值的结果,按分数排序。

优化可伸缩性


考虑到存储空间和查询处理时间,这种方法仍然是很昂贵的。如果我们有 10,000 个类别,那么对于每个图像,我们必须在正向索引中存储 10,000 个分类器分数;如果使用四字节浮点值,则需要 40KB 的成本。而且由于分类器分数很少为零,因此这 10,000 个发布列表中的大多数都需要添加一个典型图像。如果我们使用四字节整数作为图像 ID,这又需要 40KB,也就是说每张图像的索引成本为 80KB。对于许多图像来说,索引存储空间甚至会大于图像文件!

 

至于查询处理时间(对于执行搜索的用户来说,这就是等待时间),我们可以预期查询类别匹配分数 m̂【i】大约有一半为正数,因此我们将从倒排索引中读取大约 5,000 个发布列表。与文本查询相比这个结果非常差,毕竟文本查询通常只读取大约十个发布列表。

 

幸运的是,我们可以丢弃许多接近零的值以获得更有效的近似值。上面给出的每个图像的相关性分数为 s=q「c」j「c」,其中 q「c」包含查询与每大约 10,000 个类别之间的匹配分数,而 j「c」保含来自分类器的大约 10,000 个类别分数。这两个向量几乎都由零值组成,这些值对 s 的贡献很小。

 

近似地,我们将 q「c」和 j「c」的绝大多数项都设置为零。通过实验,我们发现保留 q「c」的前 10 个条目和 j「c」的前 50 个条目就足以防止质量下降了。这样就能在存储和处理方面节省可观成本:

 

  • 在前向索引中,相比 10,000 维的密集向量,我们只存储具有 50 个非零条目的稀疏向量——也就是每个图像的前 50 个类别得分。在稀疏表示中,我们存储每个非零条目的位置和值;50 个 2 字节整数位置和 50 个 4 字节浮点值需要大约 300 个字节。

  • 在倒排索引中,每张图像被添加到 50 个发布列表中,而不是 10,000 个中,这大约需要 200 个字节。因此,每个图像的总索引存储为 500 字节,而不是 80KB。

  • 在查询时,q「c」有 10 个非零条目,因此我们只需要扫描 10 个发布列表——与文本查询所做的工作量大致相同。这为我们提供了一个较小的结果集,我们也可以更快地对其评分。

 

通过这些优化,索引和存储成本降到了合理水平,并且查询延迟足以低到文本搜索延迟的水平。因此,当用户启动搜索时,我们可以并行运行文本搜索和图像搜索,并一起显示全部结果,而无需让用户等待比单独进行文本搜索更长的时间。

当前部署


现在,我们为所有的专业(Professional)和商业(Business)级别用户都启用了图像内容搜索。我们将图像内容搜索(用于一般图像)、基于 OCR 的对文档图像的搜索以及对文本文档的全文本搜索结合在一起,这样这些用户的大部分文件都可以通过基于内容的搜索获取。

视频搜索?


当然,我们正在努力让你可以搜索所有 Dropbox 内容。图像搜索是朝着这一目标迈出的一大步。最终,我们希望视频内容也可以纳入搜索范围。在视频中寻找某帧或为整个剪辑编制索引以进行搜索的技术(可能是采用静止图像技术来实现)仍处于研究阶段,但回过头来想想,仅仅几年前,“从我的所有野餐照片中找到有我的狗的那些”这样的需求是只在好莱坞电影中才能实现的梦想。

 

我们的目标是:如果什么内容在你的 Dropbox 中,我们都将为你找到它!

 

原文链接:https://dropbox.tech/machine-learning/how-image-search-works-at-dropbox

2021-06-30 18:382711

评论

发布
暂无评论
发现更多内容

SpringCloudRPC远程调用核心原理:Feign远程调用的执行流程

Java 程序员 后端

SpringDataJPA的Audit功能,审计数据库的变更,springmvc源码分析pdf百度云

Java 程序员 后端

谈谈对Dapr的一些感想

LLLLimbo

架构 分布式 微服务 云原生 dapr

最佳实践|Apache Pulsar 在华为云物联网之旅

Apache Pulsar

云原生 消息中间件 Apache Pulsar 消息系统 用户案例 华为云物联网

Spring框架(四)SpringMVC基础,2021最新大厂Java面经

Java 程序员 后端

SpringDataJPA之快速入门,arm架构v8和V9区别

Java 程序员 后端

云图说|玩转华为HiLens之端云协同AI开发

华为云开发者联盟

华为云 云图说 华为HiLens 端云协同

Spring全家桶+高并发编程+Netty(1),Java者升职加薪的8项技能

Java 程序员 后端

SpringCloudRPC调用核心原理:RxJava响应式编程框架,聚合操作符

Java 程序员 后端

Spring常用注解(绝对经典),非科班面试之旅

Java 程序员 后端

Spring的XML解析原理,这一次全搞懂再走!,springmybatis整合原理

Java 程序员 后端

使用Java+SAP云平台+SAP Cloud Connector调用ABAP On-Premise系统里的函数

汪子熙

云平台 SAP abap 11月日更

SpringIOC中复杂属性如何“巧妙”赋值,java五年工作经验面试题

Java 程序员 后端

SpringSecurity安全控件使用指南,建议细读

Java 程序员 后端

Spring全家桶+高并发编程+Netty,mybatis面试题大全

Java 程序员 后端

从挣扎突破到英雄联盟!中国SaaS头部企业阵营渐显

海比研究院

SaaS平台

Spring常用API:Spring类及相关面试点,rabbitmq分布式事务实现原理

Java 程序员 后端

Spring框架底层原理-IoC,java架构师指南pdf下载

Java 程序员 后端

低代码开发平台是什么意思?低代码开发平台优势!

低代码小观

低代码 开发 开发工具 开发平台 企业开发系统

Spring中使用的设计模式,mybatis自动映射原理

Java 程序员 后端

Spring学习--面向抽象编程(模拟Spring的简单实现),java架构师教学视频全百度云

Java 程序员 后端

Spring核心——Bean的定义与控制,linuxshell脚本教程

Java 程序员 后端

springcloud 高可用的服务注册中心及更高可用,java面试设计题

Java 程序员 后端

springcloud(三)网关zuul,2021Java进阶学习资料

Java 程序员 后端

OpenHarmony LiteOS C-SKY指令集移植指南

华为云开发者联盟

LiteOS 指令集 OpenHarmony C-SKY 移植

Spring事务传播属性(面试),分布式中间件技术实战钟林森

Java 程序员 后端

Spring源码解析(二)AOP,java基础课程百度云

Java 程序员 后端

Spring之防止连接泄露的处理办法,Java开发必会技术

Java 程序员 后端

Spring事务与事务抽象,java多线程面试总结

Java 程序员 后端

Spring注解驱动,java面试项目中遇到的问题

Java 程序员 后端

Spring源码学习~循环依赖(面试必问系列,java最新框架技术

Java 程序员 后端

如何高效实现图片搜索?Dropbox的核心方法和架构优化实践_语言 & 开发_InfoQ精选文章