写点什么

阿里文娱资深算法专家任海兵:CV 落地最大的挑战是算法的稳定性

  • 2020-02-27
  • 本文字数:1687 字

    阅读完需:约 6 分钟

阿里文娱资深算法专家任海兵:CV落地最大的挑战是算法的稳定性

计算机视觉已发展多年,近年来,该技术已经成为了人工智能领域最为“吸睛”的方向之一,不仅吸引了大量的投资,也吸引了不少 AI 技术专家进行钻研。但是,随着整个 AI 行业“退烧”,落地难也成为了计算机视觉领域的难题,算法的质量及稳定性尤其引人关注。

在将于 7 月 24 日-25 日举办的AICon 全球人工智能与机器学习大会(上海站)上,阿里巴巴文娱资深算法专家任海兵将作为计算机视觉专题出品人,InfoQ 提前对任海兵老师进行了专访,请他来谈一谈深耕计算机视觉二十余年总结的经验与思考。


InfoQ:您是如何与计算机视觉结缘的,并在这个领域深耕二十余年的?


任海兵:本科五年级上学期的时候,我后来的博士导师徐光佑教授跟我说,计算机视觉是特别富有挑战性的研究领域,研究的课题都很困难,可以研究一辈子。我觉得:这个方向可以研究一辈子,感觉挺有意思的,所以就选择了计算机视觉做为我的直博专业方向。从此就跟计算机视觉结缘,一路下来二十多年了。


InfoQ:深耕计算机视觉二十余年,您能否用几句话总结下您的心得和收获?


任海兵:在这二十年中,我主要从事将计算机视觉算法落地工业场景的工作。最大的体会是,由于计算机视觉算法的局限性,我们需要对落地场景非常了解,定制化的设计解决方案,不能闭门造车。因为看似非常相似的落地场景,具体分析下来对算法的要求、评估方式等差别很大,常常需要结合实际场景定制化的去设计最优解决方案。那种希望用一种算法解决各种问题的想法是不切实际的。


InfoQ:过去一年中(2019 年),您认为在计算机视觉领域最值得关注的技术突破有哪些?能否谈谈原因。


任海兵:在过去的一年中,我最关注的技术是视频物体分割。2019 年出现的 space-time memory network 算法极大的提高了视频物体分割的准确性和计算速度,指出了视频物体分割技术的新发展方向。结合 CVPR 2020 该方向的论文投稿来看,视频物物体分割技术沿着这个方向将会有持续的提高,逐渐成熟起来。


InfoQ:能否请您用几个例子来谈谈,目前阿里巴巴在计算机视觉方面有哪些应用场景?


任海兵:阿里巴巴是个巨大的经济体,其业务涉及非常多的领域。其中很多领域中,计算机视觉起着重要的作用。例如智慧城市中的安防监控,智能交通中 3D 城市重建、文化娱乐产业中素材智能生产等。


InfoQ:在这些场景中,您负责的项目有哪些?有哪些重要的突破是您认为值得分享的?


任海兵:跟阿里文娱相关的场景是文化娱乐产业中素材智能生产。由于素材生产的目的是给人观看,因此不能有肉眼可见的瑕疵,这对素材智能生产提出了很高的要求。以前的素材生产,例如图像抠图,都是纯手工 PS,费时费力。这两年在图像分割领域取得了巨大的成就。既有图像语义理解、实例分割、全景分割,又有精细抠图(image matting)和显著性区域分割。综合这些技术,我们可以得到高精度的图像抠图解决方案。下面给出几个我们的抠图结果:


这些已经广泛用于阿里文娱的各项业务场景中。


InfoQ:从技术的研发到落地,您认为最大的挑战是什么?是否有可以分享的经验?


任海兵:我最近的工作主要跟视频内容智能生产相关,从这个方面看,目前最大的挑战还是算法的稳定性。在一个视频中,如果有一帧图像的结果不好,那么整个视频都是不合格的。我的一项经验是,有些领域目前业界算法还不能达到全自动的智能生产,例如视频抠图,但可以辅助很少量的人工交互,利用交互式视频抠图算法,达到效率和精度的一个平衡。


InfoQ:在您看来,计算机视觉接下来会如何发展?您和团队有什么重点规划?


任海兵:我认为,目前人工设计网络已经到达一个瓶颈阶段,接下来深度网络的自动搜索将引领计算机视觉登上一个新的高峰,我的团队也将在这个方向进行布局。


采访嘉宾介绍


任海兵,阿里巴巴资深算法专家,2003 年清华大学计算机系计算机应用专业博士毕业。先在三星中国技术院工作 11 年,先后担任计算机视觉和医疗图像算法团队负责人,曾带领团队获得 FRGC 人脸识别竞争第一名。2014 年加入英特尔中国研究院,从事机器人视觉感知研究工作。2018 年底,任海兵加入阿里文娱摩酷实验室,从事视频理解算法研究。任海兵在计算机视觉领域有 20 多年的研究经验,担任 CVPR、ICCV、ECCV 等国际顶级学术会议审稿人,发表 40 余篇论文,拥有 30 多项专利。


2020-02-27 15:071740
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 295.7 次阅读, 收获喜欢 1305 次。

关注

评论

发布
暂无评论
发现更多内容

MySQL 不完全入门指南

Java 编程 架构 面试 架构师

【等保测评】黑龙江等保测评机构详细信息说明

行云管家

网络安全 等保 等级保护 等保测评

终于有大牛把Spring微服务架构设计第2版文档给整理完毕了

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

译文 | 四张画布教你判断「产品开发优先级」

LigaAI

产品经理 产品开发 画布 产品优先级

文件上传绕过思路拓展

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

论坛接口测试——Postman数据驱动(超详细小白教程)

程序员阿沐

编程 程序员 软件测试 自动化测试 接口测试

在?进来看看新一季周边到底做点啥?【话题讨论】

气气

话题讨论

🏆「作者推荐」Java技术专题-JDK/JVM的新储君—GraalVM和Quarkus

码界西柚

Java JVM GraalVM 8月日更

零基础入门:基于开源WebRTC,从0到1实现实时音视频聊天功能

JackJiang

音视频 WebRTC 即时通讯 IM

【虚拟机专栏】智能合约执行引擎的前世今生

趣链科技

由阿里三位专家撰写:数据库高效优化:架构、规范SQL技巧文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

一文带你掌握 OceanBase 社区版部署细节及原理

OceanBase 数据库

数据库 分布式数据库 oceanbase OceanBase 开源 OceanBase 社区版

摩尔时代如何押注AI算力?英特尔战术大揭秘

科技新消息

立于山巅!他,凭什么抗住万亿级流量冲击!

博文视点Broadview

短视频询盘获客系统开发案例解析

获客I3O6O643Z97

抖音、快手获客系统 抖音矩阵拓客

20年IT老民工苦心编撰成超大流量分布式系统架构解决方案文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

简单、快捷、低成本的超写实虚拟人平台来了……

百度开发者中心

人工智能 AI 最佳实践 虚拟人 前沿技术

webrtc BitrateAllocator 带宽分配器

webrtc developer

WebRTC

DEX去中心化交易所自动刷量机器人开发|去中心化做市机器人

量化系统19942438797

去中心化 做市机器人

堡垒机和跳板机的三大区别分析-行云管家

行云管家

运维 堡垒机 IT运维 跳板机

如何优雅的在业务中使用设计模式(代码如诗)

小呆呆666

flutter android 大前端 设计模式

来了!《中国移动2021智能硬件质量报告》正式发布

模块一作业

小智

架构实战营

没有7年经验你真学不会这份SpringCloud实战演练文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

DEX去中心化交易所自动刷量机器人开发|去中心化做市机器人

Geek_23f0c3

去中心化交易所系统开发 量化交易机器人系统开发 量化机器人 做市机器人 自动刷量机器人

华为高级技术专家多年经验分享微服务治理体系、架构及实践文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

影像篡改与识别(一):胶片时代

腾讯安全云鼎实验室

影像 暗房技术 篡改识别

多样数字人民币钱包来袭,阻力与动力并存

CECBC

GraphQL设计思想

Ryan Zheng

graphql

软件测试框架之——Postman参数化(超详细小白教程)

程序员阿沐

软件测试 自动化测试 接口测试

解密优酷智能生产技术,看 AI 赋能内容数字化

阿里云CloudImagine

音视频 短视频 视频处理 视频制作 视频云

阿里文娱资深算法专家任海兵:CV落地最大的挑战是算法的稳定性_AI&大模型_陈思_InfoQ精选文章