高文院士:用云脑汇智,建设人工智能开源共享创新平台

阅读数:818 2019 年 11 月 1 日 10:34

高文院士:用云脑汇智,建设人工智能开源共享创新平台

10 月 31 日,由北京智源人工智能研究院主办的 2019 北京智源大会在国家会议中心开幕,会期两天。智源大会是北京创建全球人工智能学术和创新最优生态的标志性学术活动,定位于“内行的 AI 盛会”。智源研究院学术顾问委员会委员高文院士在演讲中介绍了如何通过云脑、汇智建设人工智能开源共享创新平台,来夯实新一代人工智能发展基础。

高文院士:用云脑汇智,建设人工智能开源共享创新平台

以下内容根据高文演讲速记进行整理,未经本人确认。

我今天跟大家分享的题目叫做“云脑汇智:夯实新一代人工智能发展之基础”。云脑汇智是两件事,这两件事就是为了让中国的人工智能可以发展得更好。

国家科技部在新一代人工智能发展规划方面,已经按照 2020、2025 和 2030 到底应该怎么做,有一个很好的前瞻性考虑,希望 2020 中国的人工智能能够和世界同步,2025 其中有一部分能够达到比较领先,2030 希望总体上能够走在前面。

基本原则分了四步,一是要科技引领,二是系统布局,三是市场主导,四是开源开放。开源开放在国家整体新一代人工智能发展规划里面占了非常重要的一个位置。

在这个总体布局里面,最核心的是新一代人工智能的重大科技项目。这个科技项目里面,一直布局到 2030 重大项目,人工智能是第一个启动的。到现在为止,一共启动了包括人工智能和两个“发动机”,近期可能很快会启动类脑计算和量子信息与量子计算。

人工智能四个优势四个短板

在整个新一代人工智能布局里面,从国家的角度是“双轮驱动”的布局,既有左面的基础研究,也有右边重大应用需求的布局。在布局里面可以总体来分析一下,既然有了布局,我们的长项、短板在哪里?

我认为中国在人工智能方面有四个优势:

第一个优势是政策优势,从党中央、国务院都有布局,包括科技部、发改委、工信部都有相关的规划。到各个地方像北京市,另外像上海市、广东省等等,都有一系列的配套,所以我们有政策的优势。

第二个优势是数据优势,中国的数据量是最大的,不管是互联网的数据,不管是旅游的数据,不管是老百姓看病的医疗数据,都是全世界规模最大的。有了这些数据,其实做人工智能就有米下锅了。

第三个优势是应用场景优势。听起来好像全世界的应用场景都是一样的,其实不是。人工智能要想用,它要有强烈的需求,这个应用场景才能起来。像美国、欧洲经过几十年、上百年的发展,政府、管理各个方面都已经就位了,如果往里面用人工智能,就要有一些人的工作要丢了,其实要平衡起来还是比较棘手的问题。因为中国是发展中国家,前些年好多基础都没有到位,这个时候人工智能嵌进去马上就会发挥作用,又不会让很多人下岗。中国人工智能应用场景比任何一个地方都丰富。

第四个优势是青年人多,中国本来人口就多,大学现在的毛入学率是 40% 了,而且中国人比较重视工科,所以大学生里面学工科的人很多。学工科的里面,现在又是人工智能最热,后面我们人才的供应会非常充足。

但是我们也有四个弱势或短板:

第一是基础理论和原创算法方面差距还是比较大,因为我们起步晚。另外是前些年的科研评估体系使得大家都追热风,很难在一件事上做二三十年、三四十年,坐冷板凳能坐住的人比较少,所以基础理论方面还是有比较大的差距。

第二是在高端硬件方面有差距,不管是 GPU、FPGA,在高端传感器像运动传感器等等,特别是和模拟、射频有关方面的传感器都是我们的弱项。

第三是开源开放平台,现在做人工智能基本上都是用的开源开放平台,在那个基础上快速可以搭建一个系统就可以做应用了。但是现在的开源开放平台,目前大家用的比较多的都是像谷歌的开源开放平台的东西,或者是 Facebook 的,或者是亚马逊的,或者是微软的,或者是 IBM 的,就是排在前六个的开源开放平台都是国外企业。国内尽管互联网巨头都也要开始这方面的工作了,像百度等等都在推开源开放平台,但是从市场影响力来讲,和前面几个比起来,国内企业的开源开放平台还是影响力没有那么大。

第四是高端人才不足。与美国的人工智能高端人才数量比起来,我们大概只是相当于 20% 左右,所以高端人才不足是我们的短板。

云脑:建设共享创新平台

既然有这四个短板,我们怎么办?我们要补什么?

开源开放平台的短板我们要不要补?除了开源开放平台,现在还有一个很大的事,就是现在大家做的开源开放,源程序放在哪儿?像谷歌、微软、Facebook 的源程序,人工智能源程序是放在 GitHub。如果全放在 GitHub 上行不行?GitHub 原来是基金会管理下的托管平台,后来被微软收购了,所以现在是微软下面的托管平台。但是按照法律,这个平台的母公司微软公司是注册在美国的,按照美国法律 GitHub 要受美国法律的管辖,所以美国政府让他干什么、不让他干什么,他要乖乖地服从。

这对于中国用户来讲,如果你将来所有做的东西都是放在 GitHub 上面,万一有一天 GitHub 不让某些企业用,不让某些大学用,甚至不让某些群体用,这个人工智能就变成是没根了,就是悬在半空中了。那有没有一个办法去找一个高效的、风险可控的托管平台?

我的想法是要通过云脑来建设新一带开源共享创新平台。云脑怎么做呢?现在基本上我们的想法是做硬件和做软件。

硬件怎么做?现在已经有 15 个给企业的开放创新平台,这是科技部的。我们要做的是在下面再做一个更广泛的平台。为了做这个平台,其实去年我们在科技部下面成立了一个新一代人工智能产业创新联盟,希望在开源开放这件事上构造很好的生态,生态里面包括硬件生态、软件生态和应用生态。

软件怎么办?我们启动了启智平台的智力体系,启智平台目前有很多核心成员,包括深圳的鹏城实验室、北京智源、北京大学、国防科技大学、华为、百度,还有很多企业像商汤、京东等等。同时有分成不同的领域、不同的社区,既有最底下的基础设施、硬件和上面的算法框,也有孵化。

这样一个整体的创新布局,我们在这里面先看看硬件怎么办,我们现在深圳的鹏城实验室推出鹏城云脑,就是做硬件的。鹏城云脑一期是 100P 算力的大型集群系统,既有英伟达的 GPU,也有华为的 GPU,还有其他的一些包括寒武纪的人工智能芯片等等构成的服务器。

现在正在开始布局,明年大概就会建成的是 1000P 的一台机器。这台机器建成了以后,可以向全国做科研的,不管是高校的、研究所,甚至中小微创新创业的,都可以用这个 GPU 做训练。

在 GPU 服务器上面会有开源框架出来,也有启智章鱼、联邦学习工具、标注,有一些和模型、接口有关的东西。而且这个是采用开放共享的机制,刚才说的算力、软件都可以让大家去分享。

目前云脑一期接入的单位包括深圳、广州,广州主要是中山大学的天河二号。另外是合肥类脑计算中心,把他们花了将近 1 个亿做的服务器集群系统接进来了。

现在云脑的使命不是就在深圳,而是要联合全国所有愿意把开源资源放进来的群体一起做。

汇智:建设开源代码托管平台

另外我们要做开源代码托管平台。有朋友告诉我,GitHub 上面从国内去访问的工程师占 GitHub 整体访问人数的大概 36% 左右,就是 1/3 强。中国的工程师进 GitHub 的人非常多,但是中国的工程师给 GitHub 做贡献的不到 6%,大概 5% 左右。也就是说很多人其实只是去拿东西,没有做贡献。为什么?有两种可能性:

第一种可能性是本来他就是要拿东西的,也没有想要做贡献。

第二种可能性是因为你要做贡献,你要写很多文档,你要用英文写文档,好多工程师英文不是第一语言,写文档还有障碍,如果用中文写文档或者用中文讨论问题就简单了。

所以我们要建设一个高效的托管平台,首先上面用的语言可以是中文,这样讨论就比较方便。另外这个托管平台还要放在中国境内,这样国内所有做人工智能的人,不管是大学的,不管你是企业的,都可以用了。

这个问题我们能不能解决?能解决,就是在中国搞一个托管平台。这个托管平台我们现在已经发起了,叫汇智,汇集大家的智慧。汇智的托管平台今年 7 月 18 号已经在深圳上线。当然目前这个服务器也不是放在实验室的服务器上,而是放在公有云上。

现在托管平台上放的是什么呢?刚才我说的像 OpenAI 等等,有很多人工智能框架已经都上线了。AI 开源项目、AI 代码和一些明星项目现在都上托管平台了。

此外我们还鼓励人工智能、RISC-V 新的 CPU 开源架构代码也上来,这个托管平台不仅有自己的东西,我们可以做 GitHub 在中国的镜像,甚至其他的一些开源的项目在中国的镜像,我们都可以做。

这上面到现在为止已经有 300 多个项目,计算机视觉是比例最高的,其次像深度学习、自然语言处理等等都开始有了。我们很愿意把托管平台交给基金会去管,这样它的运营就可以进入轨道了。

评论

发布