AICon 北京站 Keynote 亮点揭秘,想了解 Agent 智能体来就对了! 了解详情
写点什么

美图海量短视频内容分析与检索(一)

  • 2019-11-30
  • 本文字数:1529 字

    阅读完需:约 5 分钟

美图海量短视频内容分析与检索(一)

在 RTC 2018 实时互联网大会上,美图云视觉技术总监赵丽丽分享了美图在短视频领域的 AI 技术应用,内容主要包括三部分:美图短视频的业务场景,基于此业务场景所做的短视频内容分析和检索技术,以及遇到的问题与相应的解决方案。最后是平台构建过程中的一些思考。以下是演讲内容整理。


美图在短视频领域的代表产品就是 2014 年发布的短视频应用“美拍”。近几年也出现了一些竞品,比如抖音、快手。近期美拍也在内容上做了重新的调整和定位,主要是美和教程,希望用户在娱乐的过程中,也能吸取一些有营养的信息和知识。

一个视频所涉及的技术

一个视频在它的生命周期内可能涉及到许多处理技术。从 2D 和 3D 捕获开始,然后是编解码,这个阶段还涉及到传输、存储,然后是编辑与处理,比如剪辑、滤镜美化、风格转化、背景分割。随后是信息提取,包括物体识别、场景检测、人物分析、行为识别、主题提取、事件检测。以上步骤完成后,我们拿到了海量视频,还要做视频的检索。它有两部分作用,一是通过给定的视频,来检索其中是否有我们想要的内容;另一个是通过给定的视频在海量的数据库中检索出相似视频。


AI 技术在美图短视频业务中的应用主要两个层面,一是工具层面,二是内容层面。


工具层面是用 AI 技术对视频进行处理,比如对视频人物的美化,背景的替换,还有视频中人物的瘦身功能。内容层面就是标签化,比如识别视频中的物体,检测视频中的场景,还有对用户行为的一些检测。另外,最重要的是,我们拿到一个视频之后,可以利用 AI 对画质、视频内容是否违规进行检测。我们提取视频特征之后进行一些视频检索的工作,以这些工作去支撑围绕短视频的业务,包括用户画像、运营、推荐、搜索。


基于以上业务需求我们构建了一个多媒体内容分析和检索的平台,这个平台在基于内容分析算法组建基础之上分为两部分,一是多媒体内容分析平台,它负责分析视频内容特征,并进行标签化。另一个是多媒体数据检索平台。

短视频内容分析与检索的技术挑战

在拿到一个视频后,如何了解它的内容,这其实是一个多层面多维度的问题。首先最简单的,我们看到一个视频后,第一反应是它的色调、纹理、风格、画质如何。再更进一步,我们需要了解这个视频包含了哪些物体,发生的场景在哪里,有哪些人物特征,包括性别、年龄、特征、服饰,同时这个内容是否违规。另外,还有更深层次的对视频内容的识别、检测,比如学术界较为前沿的研究就是行为识别。这也是美图分析一个视频内容时候会涉及的几个维度。


基于以上业务需求,我们通过对视频、音频、图象、文本,进行处理,将其传输给多媒体内容分析平台,然后解析出以下四类信息:


  • 基础特征:色调、纹理、风格、画质;

  • 人物解析:性别、年龄、颜值、发型、服饰风格;

  • 商品解析:商品识别、品牌识别;

  • 通用内容解析:视频分类、特征提取、场景分类、角度检测、物体检测、水印检测、封面选取。


基于此,多媒体内容分析平台会提供出标签、特征、索引,以支持业务需求。


短视频数据有几个特点:


  • 视频来源:手机拍摄;

  • 视频形态:竖屏、人物中心化、特效和滤镜化;

  • 视频结构:同个视频内场景固定;

  • 信息维度:多模态信息、画面和背景音频不一致;

  • 数据量大;

  • 内容未知 ;

  • 时效性;


在构建这个平台的过程中,我们遇到了一系列问题。总结起来有两个比较关键的问题:


一方面是如何有效定义标签体系。前面提到,标签是这个平台的一种输出形式。我们需要先确定输出哪些标签会对业务有所帮助,所以标签的定义非常重要。基于深度学习的算法训练需要有一些训练数据,训练数据中这个标签是怎么制定的,也非常重要。


另一方面是如何提高模型迭代效率。短视频数据有很强的时效性,比如说两个月前训练的模型,可能两个月后效果已然没那么好了,所以我们需要有一种机制能快速进行数据标注,替换到线上,稳定支撑业务。


2019-11-30 22:531676

评论

发布
暂无评论
发现更多内容

RK首款AI四模机械键盘来袭!一机多用超进化,让时间更自由

科技热闻

im即时通讯 | BeeWorks为企业构建专属的内部沟通软件

BeeWorks

即时通讯IM 私有化部署 企业级应用

API安全与管理(上海)技术沙龙,火热报名中!

云智慧AIOps社区

API 策略

新版 Midjourney V7 支持语音生图;语音 AI 平台 Phonic 融资 400 万美元,构建自主端到端模型丨日报

声网

AI如何降本增效 将零售商从“Excel地狱”中解救出来?

第七在线

Nacos托管LangChain应用Prompts和配置,助力你的AI助手快速进化

阿里巴巴云原生

阿里云 云原生 nacos

极氪汽车云原生架构落地实践

阿里巴巴云原生

阿里云 微服务 云原生

企业网络优化:如何通过SD-WAN实现办公应用加速

Ogcloud

SD-WAN SD-WAN组网 SD-WAN厂商 sd-wan专线 SD-WAN厂家

2025链游开发爆款攻略:AI+跨链技术实战指南

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

私有化视频会议系统,业务沟通协作安全不断线

BeeWorks

即时通讯IM 私有化部署 企业级应用 局域网视频软件

十个很实用的前端工具库,快来看看吧!

伤感汤姆布利柏

腾讯云服务器怎么对接高防

网络安全服务

CDN DDoS 腾讯云服务器 高防IP DDoS 攻击

征文大赛 |「码」上数据库—— KWDB 2025 创作者计划启动

KaiwuDB

征文大赛 征文活动 征文投稿 数据库、 KaiwuDB 分布式多模数据库

低代码平台的技术演进与优化分析

JeeLowCode低代码平台

低代码 低代码开发 低代码选择

吉利汽车采用 EMQX 与AutoMQ联合方案构建公私有云一体化的车联网核心架构

AutoMQ

云计算 大数据 混合云架构 AutoMQ 吉利汽车

抓住AI时代机遇,从伙伴与华为共筑行业解决方案开始

脑极体

AI

条件锁存在的意义:用生活中的例子秒懂线程间的"暗号系统"

不在线第一只蜗牛

Java

如何优雅实现电商API的统一调用:订单与物流接口整合实战

代码忍者

API 接口

Swagger 中的 x-nullable 是什么意思?

数据追梦人

​​JNPF快速开发平台的八大核心职能

伤感汤姆布利柏

DApp开发必看!全球合规白皮书:DAO治理+跨链技术落地策略

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

zk基础—Curator的使用与剖析

量贩潮汐·WholesaleTide

架构

XEOS 与 AutoMQ 推出联合方案,共筑云原生 Kafka 新生态

AutoMQ

云计算 大数据 云原生 XSKY AutoMQ

共探 AI 硬件未来图景,火山引擎“智变浪潮”技术沙龙圆满落幕

火山引擎边缘云

AIOT AI 大底座 AI 数据基础设施

不懂API接口,产品真的做不好吗?说点大实话

代码忍者

API接口

【2025年最全电商数据API清单】商品/订单/物流一键搞掂!程序员&运营速藏

代码忍者

API 接口

企业多分支机构组网有哪些难点?怎么解决?

Ogcloud

SD-WAN 企业组网 SD-WAN组网 异地组网 分支组网

科技向善|智源联合南开大学HLT Lab开源两大中文语音数据集,填补老幼人群语音研究空白

智源研究院

zk源码—数据节点与Watcher机制及权限

不在线第一只蜗牛

源码 架构 zk

博睿数据全面接入DeepSeek:运用AI 铺就大模型可观测性进阶之路

博睿数据

博睿数据 DeepSeek v3

Kube Scheduler 可观测性最佳实践

观测云

Kubernetes

美图海量短视频内容分析与检索(一)_文化 & 方法_声网_InfoQ精选文章