写点什么

计算机视觉热潮的“B 面”:技术或遇瓶颈,落地生死局

  • 2020-04-30
  • 本文字数:4270 字

    阅读完需:约 14 分钟

计算机视觉热潮的“B面”:技术或遇瓶颈,落地生死局

当潮水褪去,就知道是谁在裸泳。这场计算机视觉热潮背后的“冷”不容被忽视。


计算机视觉可谓是 AI 最火爆的技术领域,这个赛道上诞生了一批最炙手可热的明星独角兽,学研与创投风潮一浪盖过一浪…


从事计算机视觉算法研发多年的 CV 领域创业者李寻欢见证了这个行业的起伏。


我 10 年开始找工作,但当时没什么工作可以找,国内大厂基本上不需要这个岗位,感觉跟我最相近的岗位是懂 PS 的美工。


很快,情况就发生了变化。


到了 2012 年左右,因为 GPU 加速的红利,计算机视觉突然就“尘土飞扬”了起来,后来不少 AI 公司都起来了。


旷视、依图等 CV 独角兽都是在那一年创立的。计算机视觉创业在 2015 年形成了一个小高峰,据前瞻产业研究院统计,大约有 40 家公司在这一年成立。



2016-2018 年,在由深度学习引发的第三次 AI 浪潮助推下,计算机视觉按下了“快进键”,尤其是在创投圈,大额融资频现,简直成了资本宠儿,吸金能力无敌,单 2018 年一年,该领域融资额高达 230 亿。与此同时,资本的涌入也令计算机视觉技术快速应用到各个行业,走到普罗大众身边。


2018 年是 AI 商业化落地的元年,处在焦点中的计算机视觉领域也迎来了落地的关键阶段,不过这个进程却进行的并不尽如人意,能真正实现盈利的公司寥寥无几。


很多从业者切身感受到,到了 2019 年,计算机视觉行业明显不如上一年热闹了。


前两年大家都在瞩目的 AI 独角兽,我现在都时不时听到圈中好友抱怨生活艰难,开始四处‘张望了’,李寻欢感叹道。


热潮渐冷,关于计算机视觉已触及天花板的论调也此起彼伏。

CV 技术或已至瓶颈

近一年多来,商汤、旷视、云从等 CV 独角兽频频传出有登陆资本市场的计划及动作,希望成为“AI 第一股”的旷视,IPO 之路波折不断,现在距离递交招股书已经过去了 8 个月,仍迟迟没有准信儿。


不久前,商汤科技又被曝出 IPO 折戟,何时上市前途未卜。有专家犀利指出商汤等头部计算机视觉公司技术同质化严重,没有建立起坚固的技术壁垒。


这不禁令人深思,计算机视觉技术还有创新力吗?


曾先后在 360AI 研究院、陌陌深度学习实验室工作,拥有 6 年计算机视觉从业经验的言有三分析,很多 CV 公司技术同质化的原因,一是因为很多创业公司原先是从学校实验室起家的,在学术界时,大家关注的内容有很大一部分重叠,导致创业后业务线也有很大一部分重合。另一方面,人才的相互流动也进一步促进了这个问题。


技术同质化是绝对的,当然这个同质化是因为一些底层的基本技术,每一家公司自己都必须要掌握,所以会存在同质化,就好像实时聊天软件,很多公司内部都要自己有一套,它们虽然同质但必须存在,而且确实技术差不多。


值得一提的是,2018 年,商汤科技副总裁柳钢曾就“算法驱动”发表过评论,他表示,现在计算机视觉还没有到算法同质化的阶段,而且在未来十年也到不了,只会差距越来越大,不存在一个算法通吃天下(的情况)。


言有三认为,从某种意义上来说,计算机视觉现在的确已经进入了瓶颈期。


以图像分类、目标检测、图像分割为代表的一些基础技术经过了近几年的发展后,精确度已经达到产业落地水平,但剩下的一些问题比较难攻克,如非常细粒度的分类,非常小和模糊的目标检测和分割,以及如何保证在复杂光照变化下的分割结果的稳定性等。此外,从图像迁移到视频还面临着平滑性问题,图像中的细微不足在视频中容易被放大。


去年 2 月,计算机视觉奠基人 Alan L. Yuille 曾撰文表达他对当下计算机视觉技术发展的担忧,他认为,计算机视觉的发展面临瓶颈,深度学习在其中起到的作用有限,需要找到新的突破口。


深度学习的进展让 CV 识别准确度大为提高,但深度学习过于依赖大量的标注数据,这让计算机视觉研究人员在简单却繁杂的标注任务上耗费了大量时间,而忽视了更为重要的任务。这两年,业内对于深度学习陷入瓶颈的讨论也越来越多。


过去这一年多来,计算机视觉技术的发展主要在两个方向:一个是继续解决原来的老问题中的难题,如跨年龄、大姿态、有遮挡的人脸识别,上述领域的研究一直都有一些进展,但能算得上“突破性”的,还比较少。


另一个则是新的研究方向,在过去一年里,针对人脸的各种编辑技术得到了快速发展并很快应用落地,如 AI“换脸”,这可以看作是一项突破性的进展。


不过应当注意的是,AI 换脸技术虽然火热,但因其滥用也频频引发的数据隐私安全问题。当 CV 技术与人们的实际应用需求相结合的时候,如何从技术的角度设置多重保障来保护用户隐私,如何防止技术被滥用,这也是人们需要反思的。


计算机视觉算法还存在较大的局限性,例如现在应用广泛的视频监控技术还不是很成熟,深度神经网络在涉及到理解可视化数据的上下文和描述不同对象之间的关系时常常失效,纯无监督学习难度大等,短期内不太可能出现突破性的技术解决方案。

落地之困

计算机视觉之所以火,一个原因是“好落地”,相较其他 AI 领域,它落地更容易也更顺利。但真的深入到各个行业的时候,很多 CV 公司却发现实际情况并没有想象中简单,走向实用之路任重道远。


从 2018 年开始,CV 公司的商业化变现压力陡增,行业的洗牌愈发加剧,那些找不到合适的落地场景,抑或是还没有产品和业务线,生态残缺的,商业模式不清晰的公司,很可能将走上生死场。


落地落不下去,变不了现,问题到底出在哪里?


上文我们谈到了技术上的同质化。技术观察者李枫向 InfoQ 表示,计算机视觉热潮也导致了大家在落地方向上的同质化,很多公司扎堆到某几个热门场景去落地,这实际上也降低了他们的核心竞争力。


扎堆现象比较严重的是安防场景。智能安防是计算机视觉最主要的应用场景,2017 年,安防应用占中国计算机视觉应用的比重高达 67.8%。


安防已成一片红海。商汤、旷视、依图、云从等“CV 四小龙”等都在该领域作了重要布局,业务同质化比较严重。在这个赛道上,还有“海大宇”等传统的安防巨头,BAT 等互联网巨头近年来也加速入局,对于中小 CV 公司来说,这意味着面临更大的竞争和生存压力。


除安防外,CV 四小龙还在金融、汽车、手机、新零售等场景都推出了相应产品落地,业务高度层叠,交锋频繁且激烈。以智能手机场景为例,旷视和商汤是为了抢夺市场,可以说是水火不容,旷视副总裁吴文昊曾喊话对手,“一定要把商汤挤出去”。


找到场景后,要完成从技术到场景再到盈利的商业闭环,还需要掌握个中的平衡之道。不少 CV 公司以算法起家,技术基因浓厚,往往容易忽视工程能力。


李寻欢在创业之初就遇到了这个问题。


刚创业时,他的团队主攻研发 2 款产品。在研发过程中,因为团队都是技术出身,在软件方面的坑,倒是基本能很快填上。“我们早期的人写代码的速度都挺快的,常常每天更改上千行代码,软件部分迭代速度很快,对传统的算法做了很多改进,也发明出了很多创新的算法,这也成为后来产品与可比产品的差异化优势。


遇到的棘手问题多数跟硬件相关。


工业级产品的稳定性非常重要,要达到工业级别的稳定性并非一朝一夕能完成,需要长时间的测试迭代。因为涉及到的硬件研发周期耗费的时间比较长,有一款产品的发布日期比计划晚了一个月。


现在再回过头来看,李寻欢总结出了他和团队在推进技术成果落地的过程中,踩过的 3 个“坑”


第一:产品还没研发出来,就着急跟项目。


产品研发期间,时不时有朋友找过来给我们推荐项目,有的价值几万,有的几十万、上百万,诱惑其实挺大的,我们也花过一些时间跟进,但大部分没有结果,这个回来看,这其实就是“坑”。现在有一些不想做的项目推进来,都不会浪费时间去接触了,实在是因为没有时间,主要矛盾理清楚了,很多事情都顺了。


第二:没有认清目标,产品研发进度冒进。


因为没有认清楚目标,我们的产品研发进度非常迅猛,团队人员又实在有限,最后反省再三,才矫正回来,以首要产品为核心方向,制定了具体且集中的路线。


第三:切忌刚创业就狂招人。


现在想来,如果创业初期,一下子招很多人,可能就直接掉进“坑”里了,再出来,成本就高了。


那些踩过的坑,终于都趟成了“路”,累积成创业路上的宝贵经验。

研究热潮背后

学术界也兴起了“计算机视觉研究热”。


言有三不禁感慨,现在行业的繁荣与他在 2012 年刚入行时,简直发生了太大的变化。


他读书时一直在做传统图像算法,当时最直观的感觉就是,行业的门槛很高,因为现成可以借鉴的技术不多,要做出创新性的研究也很难,这也直接导致了从业者非常少。


现在整个 CV 的工具链已非常完善,加之良好的开源环境降低了 CV 技术入门门槛,越来越多的学者被吸引到这个领域来研究,从业者数量近年来有呈现井喷势头,甚至“全民计算机视觉”。


《斯坦福 2019 全球 AI 报告》显示,从 2014 年开始,“计算机视觉”类论文一直是规模最大的 AI(论文)子类之一。CVPR 是参加人数最多的 AI 会议之一。


最近几年,计算机视觉顶会的论文投稿量也在激增。2016-2020 年,CVPR 论文有效投稿数量分别为,2123 篇、2145 篇、2620 篇、3303 篇、5160 篇和 6656 篇,增幅不断扩大。


不过,论文的质量却没有与攀升的数量形成正比。最近两年,CVPR 的论文收录量已连续“二连降”,2019 年收录论文 1300 篇,接收率为 25%,CVPR 2020 接收率降至 22%。


现在的博士生、研究生没有一篇顶会论文基本上很难找到好的工作。一位匿名知乎网友奉劝大家不要再选计算机视觉作为研究方向了,他以亲身经历感受到这个方向已经很难找到合适的工作了,因为研究已遭遇瓶颈,很难有新的东西出来,行业也趋于饱和,要想进大厂,学历和履历都得拔尖儿。


“有些新晋公司为了博名气拉投资会刷榜,而顶会门槛的降低以及论文指标化与薪资、就业机会以及升职挂钩,甚至催生了团队代写论文的产业链”,言有三注意到,他希望大家能够将重点放在实实在在利用 CV 技术去解决实际问题上。


现在的 CV 及 AI 研究似乎变得越来越“扁平快”了,CV 领域底层的理论发展和经典方向的研究速度在放缓,而新涌现的应用却在加快。“某种程度上,这是行业成熟的必然规律,但还不到饱和状态,只是那种新鲜感可能没了”,言有三表示。


技术研究终究是一个不能浮躁的活儿。


目前学术界在三维的图像视频处理、视觉 SLAM、图形学、多模态技术的融合、少样本、弱监督及无监督等前沿 CV 方向的研究十分热门,但相对还不成熟。言有三认为,下一个重大技术突破可能会视觉 SLAM 和图形学方向出现。

结语

当然,一些不好的现象只是行业一个侧面,不能否定的是,近些年,计算机视觉领域确实涌现了大量的研究成果和技术创新,我们也能切实感受到 CV 技术应用到了生活之中。


但历史的风口论无数次告诉我们,当潮水褪去,就知道是谁在裸泳。当我们在期待一个火爆的风潮诞生革命性的成果时,也需要警惕它背后的那些“暗影”。


(应受访者要求,文中李寻欢、言有三为化名或网名)


2020-04-30 13:352647
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 560.0 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

如何解决跨国视频会议卡顿问题

Ogcloud

网络加速 海外网络加速 网络加速服务 视频会议加速

RFG引领Meme新趋势——为何现在仍是投资好时机?

股市老人

云上集成时序数据库 IoTDB,海量储能数据实现高效处理与实时分析

Apache IoTDB

解锁RFG空投:撸毛党看过来,轻松获利的机会来了!

石头财经

iPaaS丨API低代码平台适用的业务场景

RestCloud

API 低代码平台 ipaas

【AI 冰封挑战】搭档函数计算,“冰”封你的夏日记忆

阿里巴巴云原生

阿里云 Serverless 云原生

如何通过观测云实现AIOps突破?

观测云

AIOPS 智能运维

在孩子成长路上,爱与智慧的陪伴是送给孩子最好的礼物

心大陆多智能体

AI大模型 心理健康 数字心理

报告称2024年上半年DDoS攻击数量激增,同比增长46%

网络安全服务

游戏 金融 电商 DDoS DDoS 攻击

如何在 KubeBlocks 中配置实例模板?

小猿姐

数据库 Kubernetes 云原生

Bonree ONE 3.0:全域可观测 运维新境界

博睿数据

深入浅出python的lambda表达式

我再BUG界嘎嘎乱杀

Python 编程 后端 开发语言 Lambda表达式

豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!

我再BUG界嘎嘎乱杀

Python 编程 数据分析 后端 pandas

讯飞星火极速超拟人交互技术:语音端到端,8 月底开放;昆仑万维发布 AI 短剧平台 SkyReels丨RTE 开发者日报

声网

四旋翼无人机到底是如何平稳飞行的?巧用空气动力学仿真

Altair RapidMiner

人工智能 无人机 仿真 altair 设计仿真

华为云构建边缘云平台,畅享AI数字时代新体验

最新动态

使用对比!SLS 数据加工 SPL 与旧版 DSL 场景对照

阿里巴巴云原生

阿里云 云原生 sls

MySQL主从同步如何保证数据一致性?

王磊

Java

AI作文导师、一键搜索答疑、1秒生成手抄报,百度搜索推出开学季AI大礼包

极客天地

利用多Lora节省大模型部署成本|得物技术

得物技术

LoRa 大模型 企业号2024年8月PK榜

编程“奥斯卡”落幕,百度之星决赛中学生疯狂收割大奖!

herosunly

机器人测试自动化智能化交流沙龙 —— 免费参与,线上线下同步进行,探索未来科技新篇章!

测吧(北京)科技有限公司

测试

第64期 | GPTSecurity周报

云起无垠

为什么要使用TikTok云手机

Ogcloud

云手机 海外云手机 tiktok云手机 云手机海外版 tiktok运营

百度智能云计算系列产品通过电子标准院算力服务成熟度增强级评估

Baidu AICLOUD

通过 API 集成优化货币兑换

幂简集成

API 货币兑换API

机器人测试自动化智能化交流沙龙 —— 免费参与,线上线下同步进行,探索未来科技新篇章!

霍格沃兹测试开发学社

Match:重塑社交金融格局,打造财富增长新引擎

BlockChain先知

计算机视觉热潮的“B面”:技术或遇瓶颈,落地生死局_AI&大模型_刘燕_InfoQ精选文章