2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

七牛云彭垚:智能平台的创新和发展

  • 2019-10-09
  • 本文字数:3588 字

    阅读完需:约 12 分钟

七牛云彭垚:智能平台的创新和发展

2018 年 11 月 14 日至 11 月 18 日,第二十届中国国际高新技术成果交易会(简称高交会)在深圳成功举办,七牛云作为国内领先的以数据智能和视觉智能为核心的企业级云计算服务商受邀参展。


11 月 16 日,在以「数造中国 定义未来」为主题的 2018 中国人工智能领袖峰会上,七牛云获得了「AIC 青藤奖」。同时七牛云人工智能实验室创始人彭垚为大家带来了题为《智能平台的创新和发展》的内容分享。



(「AIC 青藤奖」)


以下是关于演讲内容的实录整理。


七牛云是一家专注在智能视频云领域的企业,像秒拍、抖音、美图秀秀这些大家日常在用的耳熟能详的 APP,它们所有的数据都存在七牛云,图像、音视频、语音的处理,以及内容的分发都由我们来做。



(七牛云人工智能实验室创始人彭垚)


今天给大家分享的主要是七牛云在 AI 领域所做的事情。



整个人工智能平台上 80% 以上的数据均来源于视觉,其中以音视频、图像为主,所以整个智能体系中最重要的环节就是视觉智能。视觉智能主要还是针对于互联网上,每天通过手机上的 APP 自拍,在美拍、秒拍自动上传之后,再通过人脸识别、深度学习等进行处理。除此之外,在这些过程中也会产生一些其他的结构化或日志的数据,所以会通过我们的数据智能做一些数据的分析,包括一些机器语言的理解。下面是七牛云之前比较重要的直播、点播、实时音视频互动和播放器的能力,底层还有一些基础的能力,包括云主机、容器计算、海量存储和智能网络。

AtLab 核心创新体系

七牛云整个 AI 逻辑的产生用这张图就可以表示出来。



我们有三大 AI 平台,一个是智能多媒体 API 平台。把视频和图像导入,通过智能多媒体 API 平台可以把图像和视频认知的结果,比如说人脸识别的结果输出,这个平台就会支撑各种各样的模型。在这个过程中会产生很多的数据,这些数据我们会把它结构化,把视频图像标准化,建立整个的视频图谱。利用视频图谱把数据入库制作成想要的样本,然后再做一些标注。做完之后会再把这些数据标注完的信息资料导入到深度学习平台中去做学习,学习完就可以把视频生成,这是三大云平台的逻辑。



在这三大平台之上,内容安全是第一重要的模块;第二块是城市慧眼,我们做了各式各样的识别场景,包括各类车辆的检测;第三块是媒资智能,有很多广电的客户找到我们,这些客户同样有大量的视频数据,我们可以帮他们做快速的编辑、审核、检索等业务;第四块是创新计划,我们有一个专门的投资,来做各种有意思的创新任务。

一站式多维度内容审核 —「明瞳」

「明瞳」是一站式内容审核的产品,主要面向广大的互联网企业。大家都了解,最近很多的互联网 APP 都被关停,就是因为上面的违规违法内容太多,对我们生活的影响,特别是青少年的影响是比较大的。一方面七牛云在服务这些互联网企业,一方面我们也在给政府,包括网信办、网安、广电总局提供我们的系统,协助他们去做审核。


传统的审查方式有:平台自查,可能会招一万个人去做人工审核。然后也有政府的监管方式,比如说群众举报,通过很多热线电话、网上举报的渠道。在举报之后,像网信办、网安这些政府机构一般都会去查处。现在也会利用七牛云的平台,自动地做爬虫检查,检查这些违规违法的行为。这三个方式方法实际上还是有非常多的痛点,因为有很多违规违法的内容还是一直在互联网上流传。


传统方法怎么用机器去查违规违法内容?



最早网安提出的一个方案是拿图像视频 MD5 的文件,把 MD5 值求出来,如果找到一样的就认为它是有问题的。一旦有一些新的违规违法视频,再通过人工把它转进来。违规内容持续流传,只是说相同的文件会找到,但实际上大部分的文件还是存在略微的差别,所以是完全的找不到。


现在市面上也有很多类似的企业,他们基本上采用的方法是用视频单帧的考核模型,这个现在比较主流,有很多插帧的视频会遗漏掉,如果抽走一小段视频,这可能是行为分析,也不会被留意到,所以通过单帧的识别模型还是做不到。


我们现在用的是视频结构化多维度识别,国家网信办、中央网信办和很多地方网信办现在都在沿用这一套系统,我们和网安总局、公安部还开设了联合实验室。


给大家分享一下整个做视频监控云这一套技术的方案。



对一个视频来说首先要提前做分镜头切割。镜头切割就是,比如你有一个长视频,一个镜头是对的,你可以切过来放到这里。首先要把视频段切割出来,每一个视频大多是定景的拍摄。切割完之后对每个视频段进行评估,包括行为的识别、涉黄低俗的识别、片段中的语音提取。语音提取需要做特殊声音的比对,包括低俗的、奇怪的声音,都是要通过特殊的声音去识别出来;文字的识别,包括像自然的语言处理、字幕翻译;然后还有动作的识别,动作其实是比较难捕捉的,比如性暗示行为的识别;还有场景和物品的识别,有一些特殊的物品和场景是违规的。通过这五大板块内容的识别,加上视频时序特征的叠加,我们就可以查处到这个内容的合法性,包括追溯到这个内容的区域、网络,去做整体的查处。



「明瞳」内容安全产品具有较多的优势,视频算法团队在国际上获得了非常多的奖,在视频竞赛中拿到了很多国际大奖。目前已经服务了很多互联网企业,每天审核超过 2 亿的视频,当然这个数据量还在增长,日均的审核量我们预测会超过 10 亿。


「明瞳」内容安全现在审核的主要类别有:涉色情内容、涉敏感内容、涉暴恐内容、涉低俗内容,每一个大分类下还有非常非常多的细分类,所以对审核的认知,首先它有一个很大的审核知识图谱,它建立的过程会通过一些新的东西去学习、去增加。



这个审核对互联网公司来说,看起来非常简单,如果你是存储在七牛云上的,直接打开开关,它就会开始自动审核。而且我们后台也有人工复核,不需要搭建任何的审核系统,就可以帮你全部做到。

智能化城市管理新模式 —「城市慧眼」

下面介绍城市慧眼相关的内容。在上海、广东以及全国各地很多城市进行的智能化城市建设中,我们主要承担的是 AI 人工智能和视频的建设工作。



我们把城市慧眼 AI 分为这六大能力:城市安防,包括人脸动态静态的比对、人员立体追踪、重点人群管理、走失人群的搜寻。还可以做一些在岗督查的工作,监督这个人员上班是不是在待工,有没有玩手机、抽烟、睡觉。还有车辆管理,包括像渣土、环卫等整体的管理,每一种车辆的违规标准都可以识别出来的。一些违法的拉横幅行为也都可以识别。


在上海外滩陆家嘴滨江大道,我们用一个高速的算法做目标跟踪,技术是非常精准的。可以洞察关键路口多方向人流量变化情况,掌握人流规律,适时引导人流方向。


在重点区域还可设置违规告警。在黄线外面,保安在的地方是不允许溜狗的,就会告警让他回去。共享单车不允许停靠的地方,我们也会第一时间识别出来。



这是黄埔外滩的人流密度方向监控。监控的方法实际上是人流密度的计算。如果人头密度非常低的时候,它会画一条线,有可能人数增长就会出现拥堵的现象,上面这个图就是通过人头的方式去做人员密度的整体评估,包括很多的方位。下面这个图实际上有很多的箭头,它可以通过不同的颜色标注不同的人群,通过箭头知道人的行走方向,所以通过这两个视频综合判定出人流的走向和人流聚集的方向,这样就可以去做快速的人员疏导和预警。


大型马拉松活动是有一个大部队,这时候人是非常多的,行人乱窜或者车辆的危险进入可以通过无人机去做全程的跟踪。



整个城市慧眼安防监控的系统由这几个部分组成:人体、物体、场景,还有人像的一套识别系统,我们对应可以去做的能力,包括检测识别、智能检索、行为分析。整个安防监控产品,通过计算机视觉 + 人工智能的能力,可以去做智能发现、实时预警、快速处置、长效治理。


然后是做行人再识别。其实能做人脸识别的摄像头是非常少的,就算这个摄像头能做人脸识别,但如果人背对着摄像头也是识别不了的。ReID,通过行人行走的姿态,上中下的特征,识别出真正人的定位,七牛云在这一方面的学术领域水准非常高,在整个榜上是排名第一的。



早期做深度学习平台的时候,我们觉得管理数据太累,写代码重复率太高,所以最初只是想做一种工具平台。后面发现深度学习平台能够给很多学术的朋友带来很多帮助,特别是学校的学生。这是整个深度学习平台的发布流程,从模型的开发到调整,到调参,自动的训练、验证,到发布上线,整体是一个闭环。



这是 AVA 深度学习平台的架构。从底层可以支持的所有存储,上面有一套分布式系统,有一些高级的应用,包括 AI 学习、增量学习,包括模型流程。



LEGO 大数据富媒体知识库是后续更智能去投入的。我们要做视频的结构化,把场景切开,特色的内容识别出来,建立一整套的搜索引擎,构建一套图谱。这个知识图谱是通过爬虫体系不断完善的制度,最后对外的其实是大数据的结构引擎,把里面的样本内容做结合,可以以图搜视频、以视频搜视频,还能得到你想要的数据样本。我们现在得到的数据量非常大,有好几十个 TB,整个样本的量都是在 LEGO 里面。


本文转载自公众号七牛云(ID:qiniutek)。


原文链接:


https://mp.weixin.qq.com/s/zT5ns8IwI5W95C6GptVuhA


2019-10-09 16:171036

评论

发布
暂无评论
发现更多内容

JMM 应用实例:单例模式

朱华

单例模式

前端科普系列(5):ESLint - 守住优雅的护城河

vivo互联网技术

Java 大前端 代码仓库

Docker内部组件

混沌畅想

Docker 容器 运维

iOS touch事件点的获取

teoking

ios

1分钟带你入门 React 生命周期

Leo

react.js 大前端 React 生命周期

独家揭秘 | 京东物流Elasticsearch大规模“迁移上云”实践

京东科技开发者

云计算

LAXCUS 大数据集群操作系统:一个分布式分时共享 E 级系统软件(五)

陈泽云

人工智能 数据库 大数据 操作系统

iOS性能优化 — 三、安装包瘦身

iOSer

ios 性能优化 编程语言 ios开发 安装包瘦身

马云:数字货币可能会重新定义货币

CECBC

金融

mongodb源码实现系列-网络传输层模块实现二

杨亚洲(专注MongoDB及高性能中间件)

MySQL 数据库 mongodb 高性能 分布式数据库mongodb

使用Hugo和GitHub搭建博客

Felix

GitHub GitHub Pages Blog Hugo

1024丨奈学教育致敬程序员:‘3+2’战略发布会圆满落幕

古月木易

奈学教育

中台架构下的DDD和落地实践

高鹏

业务中台 DDD 领域驱动模型DDD 中台架构 中台架构 DDDplus

LeetCode题解:46. 全排列,回溯,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

这个应用魔方厉害了,让软件开发者效率提升10倍

华为云开发者联盟

软件开发 代码

两个程序员老友的会面

Learun

敏捷开发

架构师训练营第 1 期 - 第 5 周 - 作业

wgl

极客大学架构师训练营

一文带你掌握Redis操作指南

华为云开发者联盟

数据库 存储

云原生2.0时代:开启应用定义基础设施新时代

华为云开发者联盟

容器 云原生

标准的开发框架,对企业开发有多重要?

Philips

敏捷开发

架构师训练营第一期 - 第五周学习总结

卖猪肉的大叔

架构师训练营第一期 - 第五周课后作业

卖猪肉的大叔

一文快速入门分库分表中间件 Sharding-JDBC (必修课)

程序员小富

Java 分库分表

JVM系列笔记 - 虚拟机栈

朱华

JVM

1024丨奈学教育致敬程序员:‘3+2’战略发布会圆满落幕

奈学教育

程序员 奈学教育

文石BOOX Note Air与掌阅iReader Smart2 该怎么选?

暂存图片

而立

算法图解:如何用两个栈实现一个队列?

王磊

Java 数据结构 算法和数据结构

配置企业应用业务流程别头大,有工作流引擎就不怕

Marilyn

敏捷开发

架构师训练第五周 -编程语言实现一致性 hash 算法

郎哲158

让“物”能说会道,揭晓华为云IOT黑科技

华为云开发者联盟

物联网 华为云

七牛云彭垚:智能平台的创新和发展_文化 & 方法_彭垚_InfoQ精选文章