10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

解读优酷视频多级多模态搜索引擎的关键技术

  • 2020-06-11
  • 本文字数:1759 字

    阅读完需:约 6 分钟

解读优酷视频多级多模态搜索引擎的关键技术

优酷在文本搜索系统的基础上,不断探索视频搜索的方案,在多模态输入、多级多模态索引、跨模态检索上做了大量工作,本次分享将揭开优酷多模态图引擎的面纱。

背景

随着智能手机及移动互联网的快速发展,人们接触到的多模态数据不管是数量还是类别都在飞速增长。



优酷作为视频平台,拥有海量 OGC、UGC 视频内容,而视频内容数据是高维度多模态数据,有标题、简介、评论等文本信息,有视频帧的图像信息,有声音,也有连贯的动作视频片段。传统的基于倒排索引的搜索引擎只适合检索文本信息,对于多媒体内容检索能力不足。


为了让用户更便捷地找到多媒体内容,增加多模态搜索能力,优酷视频搜索团队设计并研发了多级多模态搜索引擎(MMS),可以提供分布式大规模多层级多模态索引能力,低延时跨模态级联检索能力,多层级检索、融合、排序能力。

系统概况


MMS 基于阿里平台的 Hippo(在线服务调度)、SAP(应用服务框架)等基础设施开发部署,主要在索引结构、检索控制、执行框架、部署等方面做了系统设计和选型。

关键技术

1 分布式多级多模态索引结构设计

每层级独立构建分布式索引,索引类型包括倒排及向量索引。以视频、帧(图片)、人脸为例,索引结构如下:



视频、帧、人脸存在层级关系;同时帧图片及人脸都有表征向量建的向量索引,支持亿级别规模,分 10 个分片,Top10 的召回率 90%以上。

2 检索调度

MMS 的复杂性在于其在线检索逻辑,即在支持层级及多模态 query 输入的基础上,如何控制跨层级、跨模态的检索。通过定义标准的跨层级和跨模态准则,根据用户的输入形成在线检索逻辑。


基本的检索流程如下图:



由 multi-call 进行多层级、多模态扩展查询逻辑,其中关键是多级、跨模态的扩展查询逻辑。


1)跨层级


跨层级的检索由用户输入的层级作为起始检索点,用户想要的输出作为终点作为扩展,系统具有自适应推理能力。


2)跨模态


跨模态检索会有两种形式的解决方案,使用不同场景,索引构建前,不同模态数据做统一表征,映射到统一空间,在线进行向量检索,此处内容表征的占主要,MMS 主要解决是在文本、向量间进行跨模态检索。

3 图化执行引擎

复杂检索逻辑及低延迟服务能力要求,需要有高效的执行框架,图化执行引擎具备最大限度并行能力。同时对算子进行抽象,可以更自由编排及复用。


MMS 选择 Suez 图化执行引擎,采用 DAG 执行引擎+业务逻辑算子的实现方式。

4 通用性算子实现

搜索逻辑中会设计 query parser、merge、sort 通用逻辑,基于图化执行引擎接口实现通用算子:


1)query parser 算子负责解析请求,查询串使用简单文本方式,相对于 pb/binary 方式,可视化的查询串更加直观,同时查询语法简单且强大。查询串支持查询文本查询,向量查询,或者同时有两者,支持高级语法,可以控制的查询参数粗排精排等;


2)merge 融合多层级 doc,补全所需要的正排、summary 信息;


3)sort 是搜索排序逻辑,排序后选取 Top N 返回;


4)result 是结果返回和处理逻辑,基于查询使用文本方式,我们希望结果也是直接可视化,所以在构建结果的时候支持了 json/xml,同时为了兼顾性能,我们也支持 protobuf 的返回格式,同时还加入 snappy/lz4 方式压缩,使返回结果集更小,传输效率更高;为了方便调试,我们加入了调试参数,可以保存聚合调试参数,输出引擎内部的调试内容。

产品应用

1 优酷智能搜索

采用 MMS 对视频、帧、元素(人物、动作)等多级内容进行索引,召回出视频解构后的信息,可以实现定帧播放,支持用户对于精准视频内容片断的需求。


2 以图搜剧

用户可以通过拍照、上传图片搜索人物及节目、相似画面的视频。输入态丰富为图像,召回系统采用 MMS,既具备传统的通过人脸识别后用人名召回节目,又可直接通过图片向量进行召回。


总结 &展望

多媒体信息不断丰富,直播、小视频等相关应用增长迅猛,5G 移动通信技术的进一步普及,多媒体信息的生产、传播将会持续爆发式增长。人工智能技术日臻成熟,对于多模态内容理解、表征会进一步加强。多模态的人机交互体现会渗透到生活、生产各个环节。多级多模态的检索能力是必须要面临的核心问题。


优酷的多级多模态搜索引擎(MMS)提供了低延迟的跨模态、跨层级搜索能力,支持大规模多模态的索引。在视频分发、视频创作中都有着十分关键的应用场景。MMS 技术在更多的智能交互场景也将发挥更广泛的应用场景。


作者介绍:阿里文娱开发专家 崇懿,阿里文娱开发专家 慧善


2020-06-11 09:003639

评论

发布
暂无评论
发现更多内容

PostgreSQL精品学习资源合集(含基础手册、实操技巧&案例、书籍推荐)

墨天轮

数据库 postgresql

本周三晚19:00Hello HarmonyOS应用篇第7课—分布式应用开发

HarmonyOS开发者

HarmonyOS

fitfi运动赚钱链游系统开发模式详情

开发微hkkf5566

【真相】大厂招人不怕花钱的原因竟然是。。。

博文视点Broadview

面试突击56:聚簇索引和非聚簇索引有什么区别?

王磊

Java MySQL 面试

改变世界的开发者丨黑客松冠军,为听障儿童推开一扇“有声的窗”

华为云开发者联盟

云计算 华为云 GaussDB 听觉 听障儿童

【网络安全】VPN是什么?VPN与堡垒机有啥区别?

行云管家

网络安全 堡垒机 vpn

在线帮助中心对企业的作用及解决方案

小炮

本周二晚19:00战码先锋第5期直播丨深入理解OpenHarmony系统启动,轻松踏上设备软件开发之旅

OpenHarmony开发者

OpenHarmony

如何实现十亿级离线 CSV 导入 Nebula Graph

NebulaGraph

知识图谱 数据导入 Nebula Graph CSV 文件导入

全国超10亿用户!AntDB数据库的电信核心交易替换之路

亚信AntDB数据库

数据库 通信 电信 运营商 数据库应用开发

从无到有,政务系统的全面可观测模板

博睿数据

智能运维 博睿数据 政务系统 全面检测

问题来了:4GB物理内存的机器上申请8G内存能成功吗?

Java全栈架构师

Java Linux 程序员 面试 程序人生

想要了解数字机器人如何赋能政企领域,一定不要错过这个论坛

王吉伟频道

RPA 机器人流程自动化 机器人开发 华为开发者大会2022 华为WeAutomate

蓝凌叮当刘向华:如何用一款SaaS俘获年轻人的心?

ToB行业头条

Mybatis省略@Param注解原理

mybatis 6月月更 @Param注解

腾讯云小微技术登顶权威榜单XTREME基准,跨语言技术迁移开发助力企业出海

科技热闻

ShardingSphere 异构迁移最佳实践:将3.5亿量级的顾客系统 RTO 减少60倍

SphereEx

Java php MySQL 数据库 ​Apache ShardingSphere

melody SGS旋律麦克风链游开发模式分析

开发微hkkf5566

Python小白何时能做自动化

伤心的辣条

Python 软件测试 自动化测试 接口测试 测试开发

“躺着都能赚钱”的时代已经过去,亚马逊云科技为跨境电商找到下一个爆点

Lily

《正面管教》:如何科学地管教孩子?

郭明

读书笔记

游泳馆应用软件开发:在线一站式服务,优化用户整体体验

开源直播系统源码

软件开发 APP开发 直播系统

本地开发测试,局域网中使用IP地址访问项目网站

迷彩

网站架构 学习记录 网站开发 6月月更

想发自己的NFT,你要先搞清楚这6个问题

华为云开发者联盟

区块链 数据资产 NFT

面试时必问的五大问题

伤心的辣条

Python 软件测试 自动化测试 测试开发 软件测试面试

国际权威报告:SaaS+AI大势所趋,腾讯云领跑国内科技公司

科技热闻

数据关联最佳实践

观测云

可观测性 可观测

蜜月期过后,跨境电商的出口在哪里?亚马逊云科技全新洞察发布

Lily

Java—线程

武师叔

6月月更

全球云计算市场持续发力,但云身份管理能力认可度不足3成

行云管家

云计算 云服务 企业上云 混合云 多云

解读优酷视频多级多模态搜索引擎的关键技术_语言 & 开发_阿里巴巴文娱技术_InfoQ精选文章