阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

阿里文娱资深算法专家任海兵:CV 落地最大的挑战是算法的稳定性

  • 2020-02-27
  • 本文字数:1687 字

    阅读完需:约 6 分钟

阿里文娱资深算法专家任海兵:CV落地最大的挑战是算法的稳定性

计算机视觉已发展多年,近年来,该技术已经成为了人工智能领域最为“吸睛”的方向之一,不仅吸引了大量的投资,也吸引了不少 AI 技术专家进行钻研。但是,随着整个 AI 行业“退烧”,落地难也成为了计算机视觉领域的难题,算法的质量及稳定性尤其引人关注。

在将于 7 月 24 日-25 日举办的AICon 全球人工智能与机器学习大会(上海站)上,阿里巴巴文娱资深算法专家任海兵将作为计算机视觉专题出品人,InfoQ 提前对任海兵老师进行了专访,请他来谈一谈深耕计算机视觉二十余年总结的经验与思考。


InfoQ:您是如何与计算机视觉结缘的,并在这个领域深耕二十余年的?


任海兵:本科五年级上学期的时候,我后来的博士导师徐光佑教授跟我说,计算机视觉是特别富有挑战性的研究领域,研究的课题都很困难,可以研究一辈子。我觉得:这个方向可以研究一辈子,感觉挺有意思的,所以就选择了计算机视觉做为我的直博专业方向。从此就跟计算机视觉结缘,一路下来二十多年了。


InfoQ:深耕计算机视觉二十余年,您能否用几句话总结下您的心得和收获?


任海兵:在这二十年中,我主要从事将计算机视觉算法落地工业场景的工作。最大的体会是,由于计算机视觉算法的局限性,我们需要对落地场景非常了解,定制化的设计解决方案,不能闭门造车。因为看似非常相似的落地场景,具体分析下来对算法的要求、评估方式等差别很大,常常需要结合实际场景定制化的去设计最优解决方案。那种希望用一种算法解决各种问题的想法是不切实际的。


InfoQ:过去一年中(2019 年),您认为在计算机视觉领域最值得关注的技术突破有哪些?能否谈谈原因。


任海兵:在过去的一年中,我最关注的技术是视频物体分割。2019 年出现的 space-time memory network 算法极大的提高了视频物体分割的准确性和计算速度,指出了视频物体分割技术的新发展方向。结合 CVPR 2020 该方向的论文投稿来看,视频物物体分割技术沿着这个方向将会有持续的提高,逐渐成熟起来。


InfoQ:能否请您用几个例子来谈谈,目前阿里巴巴在计算机视觉方面有哪些应用场景?


任海兵:阿里巴巴是个巨大的经济体,其业务涉及非常多的领域。其中很多领域中,计算机视觉起着重要的作用。例如智慧城市中的安防监控,智能交通中 3D 城市重建、文化娱乐产业中素材智能生产等。


InfoQ:在这些场景中,您负责的项目有哪些?有哪些重要的突破是您认为值得分享的?


任海兵:跟阿里文娱相关的场景是文化娱乐产业中素材智能生产。由于素材生产的目的是给人观看,因此不能有肉眼可见的瑕疵,这对素材智能生产提出了很高的要求。以前的素材生产,例如图像抠图,都是纯手工 PS,费时费力。这两年在图像分割领域取得了巨大的成就。既有图像语义理解、实例分割、全景分割,又有精细抠图(image matting)和显著性区域分割。综合这些技术,我们可以得到高精度的图像抠图解决方案。下面给出几个我们的抠图结果:


这些已经广泛用于阿里文娱的各项业务场景中。


InfoQ:从技术的研发到落地,您认为最大的挑战是什么?是否有可以分享的经验?


任海兵:我最近的工作主要跟视频内容智能生产相关,从这个方面看,目前最大的挑战还是算法的稳定性。在一个视频中,如果有一帧图像的结果不好,那么整个视频都是不合格的。我的一项经验是,有些领域目前业界算法还不能达到全自动的智能生产,例如视频抠图,但可以辅助很少量的人工交互,利用交互式视频抠图算法,达到效率和精度的一个平衡。


InfoQ:在您看来,计算机视觉接下来会如何发展?您和团队有什么重点规划?


任海兵:我认为,目前人工设计网络已经到达一个瓶颈阶段,接下来深度网络的自动搜索将引领计算机视觉登上一个新的高峰,我的团队也将在这个方向进行布局。


采访嘉宾介绍


任海兵,阿里巴巴资深算法专家,2003 年清华大学计算机系计算机应用专业博士毕业。先在三星中国技术院工作 11 年,先后担任计算机视觉和医疗图像算法团队负责人,曾带领团队获得 FRGC 人脸识别竞争第一名。2014 年加入英特尔中国研究院,从事机器人视觉感知研究工作。2018 年底,任海兵加入阿里文娱摩酷实验室,从事视频理解算法研究。任海兵在计算机视觉领域有 20 多年的研究经验,担任 CVPR、ICCV、ECCV 等国际顶级学术会议审稿人,发表 40 余篇论文,拥有 30 多项专利。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-02-27 15:071235
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 262.4 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

2020荒诞的一年,35岁程序员现状:我现在房贷车贷家庭,android游戏开发大全

android 程序员 移动开发

2020年失业后我整理了一份系统的Android面试题(含答案)

android 程序员 移动开发

2020每一位Android开发者应该知道,Android体系架构和开发库,没有干货你打我

android 程序员 移动开发

2020关于面试字节跳动,我总结一些面试点,希望对最近需要面试的你们一些帮助

android 程序员 移动开发

2020字节跳动安卓程序员视频面试,这五点一定有助你顺利拿到offer(1)

android 移动开发

2020年阿里巴巴Android面经:拿到字节跳动offer后,简历又被阿里捞了起来

android 程序员 移动开发

2021 提升Android开发效率的实战技巧,女生学移动应用开发

android 程序员 移动开发

2020了,Android开发是否真的还有出路!25岁的我还有机会吗(1)

android 程序员 移动开发

架构设计七 如何设计异地多活架构

nydia

2020年Android开发年终总结之如何挤进一线大厂?,BAT这种大厂履历意味着什么

android 程序员 移动开发

2020最后一天! 我为大家准备一份Android 面试知识点大全迎接2021新的一年

android 程序员 移动开发

2020应届毕业生,Android春招总结,已入职小米(1),kotlin安卓开发教程

android 程序员 移动开发

2020新一波跳槽季过后,Android程序员精选,大厂,flutter微信小程序

android 程序员 移动开发

2020最全的BAT大厂面试题整理改版 (2),小程序开发

android 程序员 移动开发

2021应届秋招:提前批挂后,二次面试字节跳动抖音Android客户端

android 程序员 移动开发

2020了,Android开发是否真的还有出路!25岁的我还有机会吗

android 程序员 移动开发

2020年度总结:如果系统的Android学习可以这么简单!为什么不来看看呢

android 程序员 移动开发

2020年腾讯丶百度丶字节丶OPPO等Android面试大全,附带教你如何写好简历

android 程序员 移动开发

2020应届毕业生,Android春招总结,已入职小米,阿里牛逼

android 程序员 移动开发

2021 最新Android常见知识体系,HR:,Android进程管理

android 程序员 移动开发

2020上半年百度Android岗(初级到高级)面试真题全收录

android 程序员 移动开发

2020字节跳动安卓程序员视频面试,这五点一定有助你顺利拿到offer

android 程序员 移动开发

2020年12月大厂BATJ面试ing-本以为学了个好找工作的Android开发,没想到又是坑

android 程序员 移动开发

2020抖音短视频爆火!它的背后到底是什么—,手把手教你写Android项目文档

android 程序员 移动开发

2020这一年的Android面经汇总(百度、腾讯、滴滴,移动端跨平台开发方案

android 程序员 移动开发

王者荣耀商城异地多活架构设计

Sky

「架构实战营」

2020个人开发者做一款Android-App需要知道的事情,年薪百万在此一举(1)

android 程序员 移动开发

2020京东Android岗面试题大全(附赠京东内部真题解析PDF)

android 程序员 移动开发

2021年之Android面经分享(已获头条、顺丰,html5移动端

android 程序员 移动开发

2020京东最新Android面试真题解析,kotlinarrow库

android 程序员 移动开发

2020最新GitHub-上-10-个顶级开源项目,2021最新大厂Android面试集合

android 程序员 移动开发

阿里文娱资深算法专家任海兵:CV落地最大的挑战是算法的稳定性_AI&大模型_陈思_InfoQ精选文章