阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

商汤科技工程院院长沈徽:四岁的我们为何能入选 AI 国家队

  • 2018-11-15
  • 本文字数:4897 字

    阅读完需:约 16 分钟

商汤科技工程院院长沈徽:四岁的我们为何能入选AI国家队

AI 前线导读:  2018 年 9 月 20 日,科技部正式宣布:依托商汤科技建设智能视觉国家新一代人工智能开放创新平台。商汤科技成为继百度公司、阿里云公司、腾讯公司,科大讯飞公司之后的第五大国家人工智能开放创新平台。


在商汤科技之前入选国家人工智能开放创新平台的企业,都是已经在国内深耕了至少十年的老牌科技企业,商汤科技这样一家仅有四年历史的初创公司如何能够入选?计算机视觉技术领域为何如此受到青睐?AI 前线对商汤科技工程院院长沈徽先生进行了专访,他为我们带来了商汤科技官方的解读。


更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)


故事要从一年前说起。


2017 年 7 月,国务院印发了《新一代人工智能发展规划》,提出要构建开放协同的人工智能科技创新体系。建设布局人工智能创新平台,强化对人工智能研发应用的基础支撑。平台重点建设支持知识推理、概率统计、深度学习等人工智能范式的统一计算框架平台,形成促进人工智能软件、硬件和智能云之间相互协同的生态链。


去年 11 月,科技部宣布要紧紧围绕新一代人工智能发展规划,形成了任务落实的系统安排,全面推进规划和重大科技项目启动实施。依托百度公司建设自动驾驶国家新一代人工智能开放创新平台,依托阿里云公司建设城市大脑国家新一代人工智能开放创新平台,依托腾讯公司建设医疗影像国家新一代人工智能开放创新平台,依托科大讯飞公司建设智能语音国家新一代人工智能开放创新平台。


时间到今年 9 月 20 日,科技部正式宣布,依托商汤科技建设智能视觉国家新一代人工智能开放创新平台。商汤科技将依靠自身技术,打造一个智能视觉开放创新平台,加速计算机视觉技术在各个行业的应用落地。



沈徽认为,把第五个新一代的人工智能创新平台放在商汤科技,是对商汤科技智能视觉科研能力的认可。“我们倍感荣幸和自豪,也深感肩负的沉甸甸的使命和责任。”


2014 年 11 月,商汤科技正式成立,专注于计算机视觉和深度学习的原创技术研发。创始人为香港中文大学信息工程系教授汤晓鸥。


四年的时间,商汤科技目前估值已经达到了 45 亿美金。沈徽告诉记者:商汤科技能够入选国家队,与其原创技术实力和市场竞争力是分不开的。


沈徽说:“第一,我们有领先的原创技术研发实力,作为承担国家使命的开发创新平台,对于核心技术的领先性以及自主性是有极大要求的,只有在核心技术上面有自主的与国际保持同步的研发水平和开发能力才能承载起来依托商汤科技建设国家创新平台这样的使命。”


他举例说,商汤科技自主研发的原创深度学习平台 SenseParrots,对超深的网络规模、超大的数据学习以及复杂关联应用等支持更具优势。商汤科技还自主搭建了深度学习超算中心,大幅降低了各类人工智能技术的研发成本,并且缩短了开发深度学习算法模型的时间。与此同时,商汤科技利用其深度学习平台推动产业升级,构建人工智能生态。近年来,商汤科技各类计算机视觉技术快速在各行业投入应用。


商汤科技还集合了来自学术界和产业界的顶级人才推动最先进的 AI 研究。商汤科技创始人汤晓鸥所创办的香港中文大学多媒体实验室,是亚洲唯一入选的世界十大人工智能先锋实验室。研发团队在与计算机视觉相关的国际顶尖学术杂志和会议上累计发表 400 多篇论文(仅次于微软)。2014 年,商汤科技团队发表 DeepID 系列人脸识别算法击败 Facebook,全球首次超过人眼识别率。


第二,沈徽认为:作为国家创新平台一定要有普遍性,也就是说它能赋能很多行业


平台要对接各行各业,要有各种方面赋能性的操作才能称之为平台,如果只有一家,自己做自己的肯定就不是平台。从这一点来说商汤科技本身的业务模式非常契合人工智能平台的概念。


沈徽介绍道,商汤科技的业务涵盖智慧城市、智能手机、互动娱乐及广告、汽车、金融、零售、教育、地产等多个行业。商汤科技探索出独具特色的“1(基础研究)+1(产品及解决方案)+X(行业)”模式,即以“商汤驱动,赋能百业”,并在多个垂直领域的市场占有率位居首位。


比如在智慧城市行业,有商汤科技最为人熟知的人脸识别、智能视频分析技术应用。其核心算法已覆盖大量智慧城市、平安城市项目,提高了城市的管理效率和能力。在同样大量应用人脸识别技术的手机行业、短视频、直播平台,还有需要“刷脸”认证的金融行业,商汤科技都展现出了强大的技术实力。


甚至在智慧零售领域,商汤科技将人工智能技术应用于实体商业,帮助传统零售企业,实现 VIP 会员精细化管理,通过重构“人、货、场”的关系,提升用户购物体验、改善零售企业运营,实现精准营销,在今后的落地实践中,商汤科技会为消费者带来“刷脸消费、拿了就走”的无阻碍购物流程。


此外,商汤科技在深度学习硬件优化技术领域,依靠领先的神经网络模型压缩能力,将高性能、高精度的深度学习网络小型化,推动终端智能化的发展,现已与国际芯片巨头高通达成战略合作。


在沈徽“秀”过商汤科技的强大 AI“肌肉”之后,有这样一句话浮现在笔者脑海:科技才是硬道理


不过,在商汤科技成功晋级的背后,我们看到了一股更加强大的力量,它推动着整个计算机视觉行业的发展,在中国的人工智能领域掀起了一阵又一阵的热浪,不论是技术迭代还是融资新纪录,计算机视觉都成为了现在最热门的 AI 技术之一。


有关这场浪潮的突然来袭,我们也请沈徽从他的专业角度进行了全面的分析。

“突然”掀起的计算机视觉热浪

“突然”并不突然

但是,沈徽首先回答的是一个看上去无关的生物学常识:


“人的大脑分配了大量的资源用于视觉,对视觉的“投入”比听觉、味觉、嗅觉多得多:40%-50%的神经元都与视觉功能有关,在大脑顶层 IT 区尤为密集。相较于其他感官,人类使用眼的场景也更多,平均活跃时间也更多,视觉占据人类感官系统的 80%。”


沈徽说:一步一步地赋予计算机“视力”,是开启真正机器智能时代的钥匙。


沈徽认为,得益于海量的图片数据、运用场景数据的积累,以及 GPU 的发展、计算能力大幅度的跃升,提供了算法进步的基础,在这个基础之上带来了计算机视觉技术在众多的应用场景的落地。


也就意味着,这场浪潮并不是“突然”掀起的,而是得益于多项技术在近几年取得的进展,才让计算机视觉领域完成了之前无法完成的实践,从而引发了这场计算机视觉的发展潮。


比如沈徽本人一直以来关注的 SLAM 技术,中文称作“同时定位与地图创建”。SLAM 试图解决这样的问题:一个机器人在未知的环境中运动,如何通过对环境的观测确定自身的运动轨迹,同时构建出环境的地图。SLAM 技术正是为了实现这个目标涉及到的诸多技术的总和。


SLAM 可以应用在很多领域,VR/AR 方面,根据 SLAM 得到地图和当前视角对叠加虚拟物体做相应渲染,这样做可以使得叠加的虚拟物体看起来比较真实,没有违和感;无人机领域,SLAM 可以构建局部地图,辅助无人机进行自主避障、规划路径;无人驾驶领域, SLAM 技术可以提供视觉里程计功能,然后跟其他的定位方式融合;机器人定位导航领域,SLAM 可以用于生成环境的地图。基于这个地图,机器人执行路径规划、自主探索、导航等任务。


如果没有大量场景数据和强大的算力支撑,这样的技术很难完成如此复杂的运算,更不要说落地在这些应用场景里了。

行业发展与障碍

而从整个计算机视觉行业发展的角度看,沈徽表示:纵观中西计算机视觉发展,我们可以看到,中国与西方国家的演进路线不同


国际上前沿的技术主要集中在深度学习的基础研究层面,而中国的计算机视觉技术更倾向于产业落地。经过了过去这些年的沉淀,中国已经在人才、数据、场景和政策层面做了比较多的储备,为中国计算机视觉技术的发展提供了丰沃的土壤。


尤其是在应用方面。从全球范围来看,计算机视觉领域一定要通过落地应用才能推动学术的发展,而中国在这方面具有巨大的优势。


每年计算机视觉顶级会议上,来自中国的论文总数、最佳论文数量占比越来越高,以商汤科技为代表的中国 AI 企业,引领中国计算机视觉学术团稳坐第一梯队。同时,技术的落地应用跑得快,往往也对这项技术提出了更多超前的、突破性的问题,倒逼技术向着创新的方向、领域突破发展,这些论文大部分都是来自于实际应用对技术的推动。


沈徽告诉记者:在今天,中国计算机视觉技术的落地应用在全球范围内都是走得是很靠前的,而且数据规模体量是很大的,所以倒逼中国计算机视觉原创技术生产跑得非常快。这足以说明中国的计算机视觉技术已经走在了世界前列。


但沈徽表示:“不可否认在科研学术能力、人才储备角度来说,我们不如美国和一些欧洲国家,尤其是有影响力的、突破性的研究。我们在人才梯队培养、科研学术能力建设上任重而道远。“


他认为,计算机视觉技术未来要进一步赋能百业,还需要完成更多的升级:


从技术上的角度看,机器学习的能力还需要进一步提升:机器现在还是在指定目标下完成特定任务,现在是参数学习,未来是结构学习,再以后是目标学习,未来可能不需要依靠研究人员的能力,机器可以自主学习,面对任何一个垂直的任务,都可以找到一个自有解决方案。


从行业发展来看,可以形成整个生态环境:计算机视觉并非一个独立的行业,它更像是一种为所有传统行业提供变革契机的基础设施。通过不断迭代升级的算法和技术创新,AI 能够提供未来经济发展动能,带来颠覆性的变革。因此在未来,具有核心平台化能力的 AI 企业才能够不被淘汰。


从应用落地的趋势来看,它更像是一种为所有传统行业提供变革契机的基础设施。从产业化的角度看,还有大量的应用场景待开发,目前的技术需要形成更标准化的产品,在更多垂直行业实现大规模的落地。


在 11 月 1 日召开的民营企业座谈会上,商汤科技的创始人汤晓鸥教授也提到了目前我国人工智能产业的发展还存在一些制约的瓶颈:


一是缺乏科学布局,统筹规划。一方面,人工智能产业布局有同质化,重复建设倾向;另一方面,拔苗助长式地催化人工智能企业,缺乏人工智能技术与产业发展的深度融合。


二是中国原创技术发展需要国际合作。一方面,目前的国际环境对基础研究的合作,特别是与发达国家学术机构的深度合作,造成一定困扰;另一方面,目前中国走出国门的产业多集中在国有企业的重大基础设施,民营高科技企业还没有形成规模化出口落地。


不仅仅是计算机视觉,中国的很多人工智能技术已经取得了比较喜人的发展,但是就像前文中提到的,由于这些技术上、行业发展上的阻碍,中国人工智能商业化发展出现了一些问题,技术的发展再好、再强,无法落地到实际的应用场景中,对于技术的发展也是不利的。


于是,不少行业内的人也都发出了这样的疑问:人工智能的商业化道路,该如何走?

AI 商业化道路何处走?

近来,有关人工智能的“寒冬论”与“泡沫论”再次袭来,对于 AI 商业化发展也形成了一定的阻碍,更是让业内人士多少产生了一些动摇。但是沈徽却说:泡沫可以快速高效的聚集资源、智慧和资金,带动整个产业发展,留下一批真正好的人才和公司。当然,不好的是在资源上造成很大的浪费。


以计算机视觉技术来说,在应用落地方面仍然面临着许多技术上的难题,沈徽说:“任何时候,任何地方,都应该是最专业的人来做最专业的事。落地将会是检验‘真 AI’的唯一标准。”


他告诉记者:“我们不害怕泡沫,而是应该从泡沫中去分辨潮水的方向,建立明确的方向。人工智能是一个长期的战略,要做好打持久战的准备。


作为一家提供技术解决方案的 2B 公司,商汤科技已与国内外 700 多家世界知名的公司和机构建立合作,上文提到过的商汤科技独具特色的“1(基础研究)+1(产品及解决方案)+X(行业)”模式已经在多个行业取得了不错的成果。


中国的人工智能商业化道路仍然有些模糊,但已经有不少企业在努力尝试探索可能的方向。未来中国的人工智能是否能够探索出一条独具特色的商业化道路,在为社会带来强大的落地科技同时还能够产生巨大的价值,让我们拭目以待。

受访嘉宾简介

沈徽,商汤科技副总裁、商汤科技工程院院长。他带领商汤科技工程院搭建稳固的技术基础和平台,协助开发人工智能产品。曾先后在武汉大学、中国科学院和华盛顿大学获得计算机本科及硕士学位。


加入商汤科技前,曾作为微软全球合伙人并担任微软(亚洲)互联网工程院常务副院长,负责微软必应(Bing)搜索引擎的大平台架构及索引服务,同时负责 AI 深度学习平台架构、工具、知识图谱以及商业智能机器人的工程产品研发。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-11-15 19:074090
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 262.7 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

GraphPad Prism 9 mac(科学数据分析和图形绘制软件) v9.5.1完整版安装图解

mac

windows 苹果mac Prism 9 科学数据分析软件

MySQL 用 limit 为什么会影响性能?有什么优化方案?

程序员万金游

#java #Mysql #mysql面试 #java程序员

腾讯力捧新游元梦之星,UGC地图却埋雷,疑似AI投喂惹的祸

新消费日报

备受以太坊基金会青睐的 Hexlink,构建亿级用户涌入 Web3的入口

威廉META

备受以太坊基金会青睐的 Hexlink,构建亿级用户涌入 Web3的入口

EOSdreamer111

华为坤灵“都江堰”开闸放舟,分销人飞奔在数字化航道

脑极体

分销 坤灵

InDesign 2023 for Mac(id 2023下载) v18.5永久激活版

mac

苹果mac Windows软件 排版软件 InDesign 2023

Mac电脑油猴Safari浏览器插件 Tampermonkey激活中文版

胖墩儿不胖y

脚本管理 管理脚本 脚本管理器

备受以太坊基金会青睐的 Hexlink,构建亿级用户涌入 Web3的入口

股市老人

关于Android突破非SDK接口限制的延伸

XCG00

android

备受以太坊基金会青睐的 Hexlink,构建亿级用户涌入 Web3的入口

西柚子

备受以太坊基金会青睐的 Hexlink,构建亿级用户涌入 Web3的入口

威廉META

ARTS-WEEK5-23.9.18~23.9.24

EchoZhou

C++ 的cout格式化输出

智趣匠

2023 第十二届中国智能产业高峰论坛 - 文档大模型的未来展望

海拥(haiyong.site)

图像处理

DAPP算力挖矿项目系统开发案例

l8l259l3365

Parallels Desktop 18 for Mac(pd虚拟机安装教程) v18.0.1(53056)永久激活版

mac

Parallels Desktop 18 苹果mac Windows软件 虚拟机软件

AI技术图像编辑软件:Luminar Neo for Mac最新中文版

mac大玩家j

图像编辑 Mac软件 编辑图像 图像处理工具

备受以太坊基金会青睐的 Hexlink,构建亿级用户涌入 Web3的入口

石头财经

ICO 的未来:塑造软件开发的趋势

区块链软件开发推广运营

数字藏品开发 dapp开发 区块链开发 链游开发 NFT开发

[大厂实践] Chick-fil-A的服务API流程实践

俞凡

云原生 大厂实践

备受以太坊基金会青睐的 Hexlink,构建亿级用户涌入 Web3的入口

大瞿科技

Maven3.6.1下载和详细配置

程序员万金游

#java #maven

备受以太坊基金会青睐的 Hexlink,构建亿级用户涌入 Web3的入口

BlockChain先知

[大厂实践] 边缘网络的可观测性

俞凡

云原生 可观测性 大厂实践

商汤科技工程院院长沈徽:四岁的我们为何能入选AI国家队_AI&大模型_陈思_InfoQ精选文章