快手结合知识图谱进行多模态内容理解_AI_陈利鑫

11 月 19 - 20 日 Apache Pulsar 社区年度盛会来啦，立即报名！了解详情 



 写点什么

随着媒体传播形式转向多媒体为主流，在多模态内容理解 AI 技术开始显示出重要的作用。然而，目前 AI 展示的诸多能力，还停留在图像、语音等感知层面，多媒体内容理解却是多方面的叠加，相对于单一图像、语音的理解来说更加困难。在多媒体内容理解方面，快手在技术和应用层面，有不少经验值得借鉴。

快手多媒体理解部门

短视频平台快手将自己的定位为一家以人工智能为核心的公司，在快手 APP 中采用诸多 AI 技术对音视频进行处理，如智能视频编码、智能暗光增强、图像质量检测等 AI。

在快手，进行人工智能研究的主要有两个部门，一个是“Y-Lab”，负责平台的机器学习、计算机视觉和计算机图形学等研究，偏重移动端如何更好地拍摄视频，如 AR 增强现实相关的技术战略研究；而“兄弟”部门多媒体内容理解部（Multimedia Understanding）MMU 则更加聚焦在对整个视频内部的理解。

该部门负责人李岩介绍道，MMU 目前团队接近 100 人，分为多个研究 team，分别聚焦在图像、人脸、音乐、多模态、应用（内容安全、推荐、搜索等）方面，整个团队由算法工程师和应用工程师两部分组成。

结合知识图谱进行多媒体内容理解

所谓多模态，简单来说是相对于单一的语音、图像等，将多个形态的信息结合起来，如视频，就是由视觉画面和听觉语音两部分组成的信息载体。

随着媒体传播形式转向多媒体为主流，AI 在多模态内容理解上显示出越来越重要的作用。

相对于 AI 目前所展示出在图像和语音领域的单一感知能力，视频理解更加复杂，也更加困难，这体现在理解视频是二者的叠加，而 AI 在这个领域才刚刚开始起步。

在多模态的解决思路方面，从大方向上可分为感知和推理两个阶段。在感知阶段，快手目前主要从人脸、图像、语音，和音乐四个维度分析理解视频内容，完成对视频低级语义信息的感知。在完成上述任务后，机器才进入到推理阶段，与知识图谱相结合。这是目前快手的主要做法，通过融合感知内容和知识图谱，使得理解视频高层语义及情感成为可能。

（快手多媒体内容理解算法及平台，2018 年 9 月）

（快手多媒体内容理解算法及平台，2018 年 4 月）

对比快手今年 4 月份对外公布的信息可以看到，如今，快手多媒体内容理解预算法平台增加了知识图谱，使用知识图谱进行实体提取、关系挖掘和推理运算。

快手构建了一个自己的知识图谱的体系，李岩表示这个数千个节点级别的知识图谱基本上可以满足快手大部分的任务需求。

“单模态做不好，多模态也好不到哪儿去”

以 NLP 为例，它是多模态其中一个重要模态——文字在计算机与人类语言之间转换的研究领域。目前来说这一技术偏成熟，但仍距离完美解决现实需求较远。MMU 部门负责人李岩告诉 AI 前线，快手未来会对文本的需求越来越大，其中的逻辑很简单，因为快手有大量的视频数据上传，而 MMU 的重要工作之一，就是把视频转换成文本。处理、理解、运用文本是一个 NLP、NLU 技术路径的场景，MMU 在积极寻找这两个方向的专家来解决视频转换文字的工作。

但是，包括 Reddit 等很多论坛，都有人发出这样的声音：近年来，NLP 在技术和应用上实质上少有突破性成果出现，让人失望。在李岩看来，NLP 和 NLU 是 AI 领域的重要和核心组成部分，之所以大家感觉最近这段时间 NLP、NLU 相对的进展不是特别大，是因为它没有达到大家的预期，不像图像、语音，可能是从原来的太过落后，突然之间有了巨大的发展，实现了很大的跨越。“

实际上，NLP 领域还是有所突破的，之所以人们觉得其发展缓慢，原因之一是原来 NLP 相关的工作就已经偏成熟，有一些问题已经得到不错的解决，所以相对来说没有重大进展；

第二，NLP 的发展还是要依赖新的产品形态，因为原来对文本的需求，比如以百度为首的网页时代的搜索对文本的要求很高，促进了 NLP 技术的进步。后来大家就发现，整个世界都在多媒体化，都在智能化。

什么叫智能？就是语音、图像都成为自然的人机交互方式，而人的语言其实还是人发明的，就是人造的，图像、语音，感知的是上帝创造的信号。它依赖于更自然的人机交互的产品的出现。比如快手，虽然看上去没有文本，但是本质上它还是一个文本的问题，能够让新的产品、新的应用驱动文本技术的发展。李岩相信，一个技术的发展是需要产品去驱动的。”

MMU 团队发力的研究方向多而复杂，在每一个方向都面临很多的问题。李岩认为，研究多模态首先得把单模态研究好，单模态做不好去研究多模态，多模态的研究效果也不会好到哪儿去。所以，单模态要做好，多模态问题也要解决好，这是一个很难的问题。”

从本质上来说，从感知到认知的研究，最终都会汇集到 NLP 和 NLU 上，学术界和产业界都在寻找突破的机会，渴望在高层次语义理解或推理上获得进展，但或者苦于研究投入不足，或者因为人才等问题难以推进相关工作，导致产学研整体上均未有重大突破性成果出现。

李岩认为，学术界通常在 NLU 研究上目的性不强，缺乏实际的需求去推动；而工业界则有着比较强的一线需求，但又碍于技术成熟度达不到，无法推出相关功能，仅靠自己的力量难以解决这个问题，这对于两个圈子来说都是痛点。所以，他认为，未来学术界和工业界之间的联系会越来越紧密，大家会越来越多地看到教授去工业界去任职，也会越来越多地看到工业界跟学校建立实验室、研究院。“我觉得未来工业界和学术界会深度融合，把这两个业界的力量都用好，对我们解决难题是有帮助的。”

发布

暂无评论

创作场景

快手结合知识图谱进行多模态内容理解

快手多媒体理解部门

结合知识图谱进行多媒体内容理解

“单模态做不好，多模态也好不到哪儿去”

评论

边缘使用 K8s 门槛太高？OpenYurt 这个功能帮你快速搭建集群！

JavaScript进阶（三）模块化

做安全操作系统，这位技术老兵是认真的！

即时通讯系统架构设计-如何设计一款WhatsApp

CSS交互动画指南之transition

阿里巴巴最新最全800道Java后端面试大全（值得收藏）

北鲲云探索医药研发,云计算再添新应用场景

Node 编码规范 -努力做得更好

Java“锁”事

Neuron v1.3.2 正式发布：新 logo、新界面、新可能

权威报告显示：BATH坐稳中国四朵云

惊掉下巴！这本Alibaba百万年薪必备—高性能架构路线震撼出世！

译文：为什么超链接是蓝色的？（一）

阿里初面被两道编程题给干掉？，再次内推终上岸（已拿电子offer）

行云创新亮相“OSCAR开源产业大会”：云调试加速应用创新

Android 上的 Kotlin 协程

耗时大半个月收整全套「Java架构进阶pdf」没白费,Github上点赞破十万！

博睿数据短信服务监测解决方案专场直播

autojs自动化框架简介

JVM 内存模型学习笔记（二）

探索：北鲲云超算平台能否应用于中医药行业

汽车行业的进化秘诀，竟在这座智慧出行乐园中……

vue之keep-alive作用和原理

【直播预告】阿里云服务网格 ASM 产品易用性改善实践与思考

模块八作业

代码的艺术

DDD实战分享-消息中心

声网推出首个完整实时合唱解决方案即将上线“咪哒”全国线下K歌房

什么是数据粒度

别把云原生想复杂了

数据结构与算法:缓存置换算法

创作场景

快手结合知识图谱进行多模态内容理解

快手多媒体理解部门

结合知识图谱进行多媒体内容理解

“单模态做不好，多模态也好不到哪儿去”

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载