【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

计算机视觉热潮的“B 面”:技术或遇瓶颈,落地生死局

  • 2020-04-30
  • 本文字数:4270 字

    阅读完需:约 14 分钟

计算机视觉热潮的“B面”:技术或遇瓶颈,落地生死局

当潮水褪去,就知道是谁在裸泳。这场计算机视觉热潮背后的“冷”不容被忽视。


计算机视觉可谓是 AI 最火爆的技术领域,这个赛道上诞生了一批最炙手可热的明星独角兽,学研与创投风潮一浪盖过一浪…


从事计算机视觉算法研发多年的 CV 领域创业者李寻欢见证了这个行业的起伏。


我 10 年开始找工作,但当时没什么工作可以找,国内大厂基本上不需要这个岗位,感觉跟我最相近的岗位是懂 PS 的美工。


很快,情况就发生了变化。


到了 2012 年左右,因为 GPU 加速的红利,计算机视觉突然就“尘土飞扬”了起来,后来不少 AI 公司都起来了。


旷视、依图等 CV 独角兽都是在那一年创立的。计算机视觉创业在 2015 年形成了一个小高峰,据前瞻产业研究院统计,大约有 40 家公司在这一年成立。



2016-2018 年,在由深度学习引发的第三次 AI 浪潮助推下,计算机视觉按下了“快进键”,尤其是在创投圈,大额融资频现,简直成了资本宠儿,吸金能力无敌,单 2018 年一年,该领域融资额高达 230 亿。与此同时,资本的涌入也令计算机视觉技术快速应用到各个行业,走到普罗大众身边。


2018 年是 AI 商业化落地的元年,处在焦点中的计算机视觉领域也迎来了落地的关键阶段,不过这个进程却进行的并不尽如人意,能真正实现盈利的公司寥寥无几。


很多从业者切身感受到,到了 2019 年,计算机视觉行业明显不如上一年热闹了。


前两年大家都在瞩目的 AI 独角兽,我现在都时不时听到圈中好友抱怨生活艰难,开始四处‘张望了’,李寻欢感叹道。


热潮渐冷,关于计算机视觉已触及天花板的论调也此起彼伏。

CV 技术或已至瓶颈

近一年多来,商汤、旷视、云从等 CV 独角兽频频传出有登陆资本市场的计划及动作,希望成为“AI 第一股”的旷视,IPO 之路波折不断,现在距离递交招股书已经过去了 8 个月,仍迟迟没有准信儿。


不久前,商汤科技又被曝出 IPO 折戟,何时上市前途未卜。有专家犀利指出商汤等头部计算机视觉公司技术同质化严重,没有建立起坚固的技术壁垒。


这不禁令人深思,计算机视觉技术还有创新力吗?


曾先后在 360AI 研究院、陌陌深度学习实验室工作,拥有 6 年计算机视觉从业经验的言有三分析,很多 CV 公司技术同质化的原因,一是因为很多创业公司原先是从学校实验室起家的,在学术界时,大家关注的内容有很大一部分重叠,导致创业后业务线也有很大一部分重合。另一方面,人才的相互流动也进一步促进了这个问题。


技术同质化是绝对的,当然这个同质化是因为一些底层的基本技术,每一家公司自己都必须要掌握,所以会存在同质化,就好像实时聊天软件,很多公司内部都要自己有一套,它们虽然同质但必须存在,而且确实技术差不多。


值得一提的是,2018 年,商汤科技副总裁柳钢曾就“算法驱动”发表过评论,他表示,现在计算机视觉还没有到算法同质化的阶段,而且在未来十年也到不了,只会差距越来越大,不存在一个算法通吃天下(的情况)。


言有三认为,从某种意义上来说,计算机视觉现在的确已经进入了瓶颈期。


以图像分类、目标检测、图像分割为代表的一些基础技术经过了近几年的发展后,精确度已经达到产业落地水平,但剩下的一些问题比较难攻克,如非常细粒度的分类,非常小和模糊的目标检测和分割,以及如何保证在复杂光照变化下的分割结果的稳定性等。此外,从图像迁移到视频还面临着平滑性问题,图像中的细微不足在视频中容易被放大。


去年 2 月,计算机视觉奠基人 Alan L. Yuille 曾撰文表达他对当下计算机视觉技术发展的担忧,他认为,计算机视觉的发展面临瓶颈,深度学习在其中起到的作用有限,需要找到新的突破口。


深度学习的进展让 CV 识别准确度大为提高,但深度学习过于依赖大量的标注数据,这让计算机视觉研究人员在简单却繁杂的标注任务上耗费了大量时间,而忽视了更为重要的任务。这两年,业内对于深度学习陷入瓶颈的讨论也越来越多。


过去这一年多来,计算机视觉技术的发展主要在两个方向:一个是继续解决原来的老问题中的难题,如跨年龄、大姿态、有遮挡的人脸识别,上述领域的研究一直都有一些进展,但能算得上“突破性”的,还比较少。


另一个则是新的研究方向,在过去一年里,针对人脸的各种编辑技术得到了快速发展并很快应用落地,如 AI“换脸”,这可以看作是一项突破性的进展。


不过应当注意的是,AI 换脸技术虽然火热,但因其滥用也频频引发的数据隐私安全问题。当 CV 技术与人们的实际应用需求相结合的时候,如何从技术的角度设置多重保障来保护用户隐私,如何防止技术被滥用,这也是人们需要反思的。


计算机视觉算法还存在较大的局限性,例如现在应用广泛的视频监控技术还不是很成熟,深度神经网络在涉及到理解可视化数据的上下文和描述不同对象之间的关系时常常失效,纯无监督学习难度大等,短期内不太可能出现突破性的技术解决方案。

落地之困

计算机视觉之所以火,一个原因是“好落地”,相较其他 AI 领域,它落地更容易也更顺利。但真的深入到各个行业的时候,很多 CV 公司却发现实际情况并没有想象中简单,走向实用之路任重道远。


从 2018 年开始,CV 公司的商业化变现压力陡增,行业的洗牌愈发加剧,那些找不到合适的落地场景,抑或是还没有产品和业务线,生态残缺的,商业模式不清晰的公司,很可能将走上生死场。


落地落不下去,变不了现,问题到底出在哪里?


上文我们谈到了技术上的同质化。技术观察者李枫向 InfoQ 表示,计算机视觉热潮也导致了大家在落地方向上的同质化,很多公司扎堆到某几个热门场景去落地,这实际上也降低了他们的核心竞争力。


扎堆现象比较严重的是安防场景。智能安防是计算机视觉最主要的应用场景,2017 年,安防应用占中国计算机视觉应用的比重高达 67.8%。


安防已成一片红海。商汤、旷视、依图、云从等“CV 四小龙”等都在该领域作了重要布局,业务同质化比较严重。在这个赛道上,还有“海大宇”等传统的安防巨头,BAT 等互联网巨头近年来也加速入局,对于中小 CV 公司来说,这意味着面临更大的竞争和生存压力。


除安防外,CV 四小龙还在金融、汽车、手机、新零售等场景都推出了相应产品落地,业务高度层叠,交锋频繁且激烈。以智能手机场景为例,旷视和商汤是为了抢夺市场,可以说是水火不容,旷视副总裁吴文昊曾喊话对手,“一定要把商汤挤出去”。


找到场景后,要完成从技术到场景再到盈利的商业闭环,还需要掌握个中的平衡之道。不少 CV 公司以算法起家,技术基因浓厚,往往容易忽视工程能力。


李寻欢在创业之初就遇到了这个问题。


刚创业时,他的团队主攻研发 2 款产品。在研发过程中,因为团队都是技术出身,在软件方面的坑,倒是基本能很快填上。“我们早期的人写代码的速度都挺快的,常常每天更改上千行代码,软件部分迭代速度很快,对传统的算法做了很多改进,也发明出了很多创新的算法,这也成为后来产品与可比产品的差异化优势。


遇到的棘手问题多数跟硬件相关。


工业级产品的稳定性非常重要,要达到工业级别的稳定性并非一朝一夕能完成,需要长时间的测试迭代。因为涉及到的硬件研发周期耗费的时间比较长,有一款产品的发布日期比计划晚了一个月。


现在再回过头来看,李寻欢总结出了他和团队在推进技术成果落地的过程中,踩过的 3 个“坑”


第一:产品还没研发出来,就着急跟项目。


产品研发期间,时不时有朋友找过来给我们推荐项目,有的价值几万,有的几十万、上百万,诱惑其实挺大的,我们也花过一些时间跟进,但大部分没有结果,这个回来看,这其实就是“坑”。现在有一些不想做的项目推进来,都不会浪费时间去接触了,实在是因为没有时间,主要矛盾理清楚了,很多事情都顺了。


第二:没有认清目标,产品研发进度冒进。


因为没有认清楚目标,我们的产品研发进度非常迅猛,团队人员又实在有限,最后反省再三,才矫正回来,以首要产品为核心方向,制定了具体且集中的路线。


第三:切忌刚创业就狂招人。


现在想来,如果创业初期,一下子招很多人,可能就直接掉进“坑”里了,再出来,成本就高了。


那些踩过的坑,终于都趟成了“路”,累积成创业路上的宝贵经验。

研究热潮背后

学术界也兴起了“计算机视觉研究热”。


言有三不禁感慨,现在行业的繁荣与他在 2012 年刚入行时,简直发生了太大的变化。


他读书时一直在做传统图像算法,当时最直观的感觉就是,行业的门槛很高,因为现成可以借鉴的技术不多,要做出创新性的研究也很难,这也直接导致了从业者非常少。


现在整个 CV 的工具链已非常完善,加之良好的开源环境降低了 CV 技术入门门槛,越来越多的学者被吸引到这个领域来研究,从业者数量近年来有呈现井喷势头,甚至“全民计算机视觉”。


《斯坦福 2019 全球 AI 报告》显示,从 2014 年开始,“计算机视觉”类论文一直是规模最大的 AI(论文)子类之一。CVPR 是参加人数最多的 AI 会议之一。


最近几年,计算机视觉顶会的论文投稿量也在激增。2016-2020 年,CVPR 论文有效投稿数量分别为,2123 篇、2145 篇、2620 篇、3303 篇、5160 篇和 6656 篇,增幅不断扩大。


不过,论文的质量却没有与攀升的数量形成正比。最近两年,CVPR 的论文收录量已连续“二连降”,2019 年收录论文 1300 篇,接收率为 25%,CVPR 2020 接收率降至 22%。


现在的博士生、研究生没有一篇顶会论文基本上很难找到好的工作。一位匿名知乎网友奉劝大家不要再选计算机视觉作为研究方向了,他以亲身经历感受到这个方向已经很难找到合适的工作了,因为研究已遭遇瓶颈,很难有新的东西出来,行业也趋于饱和,要想进大厂,学历和履历都得拔尖儿。


“有些新晋公司为了博名气拉投资会刷榜,而顶会门槛的降低以及论文指标化与薪资、就业机会以及升职挂钩,甚至催生了团队代写论文的产业链”,言有三注意到,他希望大家能够将重点放在实实在在利用 CV 技术去解决实际问题上。


现在的 CV 及 AI 研究似乎变得越来越“扁平快”了,CV 领域底层的理论发展和经典方向的研究速度在放缓,而新涌现的应用却在加快。“某种程度上,这是行业成熟的必然规律,但还不到饱和状态,只是那种新鲜感可能没了”,言有三表示。


技术研究终究是一个不能浮躁的活儿。


目前学术界在三维的图像视频处理、视觉 SLAM、图形学、多模态技术的融合、少样本、弱监督及无监督等前沿 CV 方向的研究十分热门,但相对还不成熟。言有三认为,下一个重大技术突破可能会视觉 SLAM 和图形学方向出现。

结语

当然,一些不好的现象只是行业一个侧面,不能否定的是,近些年,计算机视觉领域确实涌现了大量的研究成果和技术创新,我们也能切实感受到 CV 技术应用到了生活之中。


但历史的风口论无数次告诉我们,当潮水褪去,就知道是谁在裸泳。当我们在期待一个火爆的风潮诞生革命性的成果时,也需要警惕它背后的那些“暗影”。


(应受访者要求,文中李寻欢、言有三为化名或网名)


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-04-30 13:352361
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.5 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

渣本全力以赴33天,四面阿里妈妈(淘宝联盟),拿下实习岗offer

小Q

Java 学习 编程 架构 面试

史上最通俗Netty入门长文:基本介绍、环境搭建、动手实战

JackJiang

网络编程 Netty nio 即时通讯 IM

区块链IM即时社交通讯系统开发,区块链社交平台源码搭建

13530558032

.net core增强工作流组件,基于稳定平台,多项目整合开发

雯雯写代码

Java中NullPointerException的完美解决方案

Silently9527

java8 Optional

容器和虚拟机到底有啥区别?

网管

容器 虚拟机

《程序员面试金典》.pdf

田维常

面试

SQL数据库集合运算

正向成长

SQL表联结 SQL集合运算

基于Vue实现一个有点意思的拼拼乐小游戏

徐小夕

Java GitHub 开源 H5游戏 H5

2020双十一,阿里云GRTN拉开直播和RTC技术下半场的序幕

阿里云视频云

架构 云直播 直播 流媒体 直播架构

6个JDK自带JVM调优工具,一次性打包给你说清楚

田维常

jvm调优

微服务架构中的“参天大树”:SpringBoot+SpringCloud+Docker

小Q

Java 学习 容器 面试 微服务

影视剪辑类自媒体运营心得:如何抓住观众的痛点

石头IT视角

直播卖货已成趋势

anyRTC开发者

音视频 WebRTC RTC

为什么容器内存占用居高不下,频频 OOM

996小迁

Java 架构 容器 面试 k8s

接口测试并不只是测试参数和返回值

测试人生路

接口测试

区块链交易所软件,数字货币场外交易系统搭建

13530558032

区块链币支付系统开发搭建,USDT支付平台源码

13530558032

C++调用Go方法的字符串传递问题及解决方案

华为云开发者联盟

c++ 内存 代码

支撑2715​亿元海量订单 揭秘京东大促背后的数据库基石

京东科技开发者

数据库 数据仓库 云服务 云数据库

什么是服务器租用?

德胜网络-阳

SpringBoot-技术专题-Hystrix学习介绍

洛神灬殇

解读登录双因子认证(MFA)特性背后的TOTP原理

华为云开发者联盟

算法 totp 密钥

区块链数字货币商城系统开发模式

薇電13242772558

区块链 数字货币

这才是图文并茂:我写了1万多字,就是为了让你了解AQS是怎么运行的

鄙人薛某

Java 并发编程 AQS 并发 ReentrantLock

深圳区块链钱包系统开发,区块链钱包app源码

13530558032

2020年底备战—从技术到面试合集

iOSer

ios 编程 面试

go-zero 如何扛住流量冲击(一)

万俊峰Kevin

microservice go-zero goctl Go 语言

vscode + vim : vscode 全键盘使用方案

lmymirror

vim vscode Spacemacs

响应式关系数据库处理R2DBC

程序那些事

MySQL R2DBC 程序那些事 响应式系统 响应式数据库

【应用运维】公司业务迭代迅速,运维如何高效进行应用发布?

嘉为蓝鲸

可视化 PaaS 运维自动化 部署与维护 发布

计算机视觉热潮的“B面”:技术或遇瓶颈,落地生死局_AI&大模型_刘燕_InfoQ精选文章