中国 AI 开源开放平台的现状与挑战

阅读数:1 2019 年 12 月 26 日 09:04

中国AI开源开放平台的现状与挑战

12 月 21 日~22 日,由鹏城实验室(PCL)、新一代人工智能产业技术创新战略联盟(AITISA)主办、OpenI 启智社区(OpenI)承办的「OpenI/O 2019 启智开发者大会」在深圳召开。本次大会以“平台筑基、标准张脉、开源赋能”为主题,邀请了来自百度、腾讯、华为、鹏城实验室、小米、微众银行等公司的产业界专家,与高文院士、黄铁军教授等多位学术界领袖,围绕“AI 开源基础设施及环境”、“深度学习与强化学习”、“联邦学习与开源数据湖”、“5G+AI+AVS 及全国 AI 大赛”、“AI 开源教育与治理”、“Open Source Community Leadship”六大主题坐而论道,共同探讨人工智能的边界和方向。

中国AI开源开放平台的现状与挑战

新一代人工智能产业技术创新战略联盟(AITISA)秘书长、OpenI 技术委员会主席、北京智源研究院院长黄铁军在会上发表了题为“坚持开源开放原则,筑成新一代人工智能”的主题演讲,详细阐述了 AI 开源开放平台的使命,并指出了它的机遇与挑战,以及具体的实施路径。

InfoQ 根据速记将演讲内容整理如下(在不改变原意的基础上略有删减):

各位早上好!我稍微系统地给各位汇报一下 OpenI 的背景和进展情况。

中国的人工智能发展是有国家体系化的推进安排的,具体来说就是国务院 2017 年 7 月 20 号发布的《新一代人工智能发展规划》。在这个文件里,大家关注比较多的是中国在 2020 年人工智能要达到与世界先进水平同步,2025 年要达到世界领先水平,2030 年总体达到世界领先水平。但是怎么实现这样一个目标,媒体上报道的并不多。事实上,达到这个目标的路线在规划里也是有的,中国推进人工智能的四条原则分别是:科技引领、系统布局、市场主导、开源开放。这 16 个字告诉了我们怎么实现刚才提到的战略目标。今天我会具体说到其中一个原则,就是开源开放。

中国的人工智能发展,并不像有人想象的,我们要组织多少团队,在一些方向上领先。这也是一种路线,但是不全面。如果说全面的话,在开源开放的原则下,大家共同建设一个体系化的 AI 技术体系,这才是我们要达到目标的一个更重要的布局。所以今天我们要落实的就是这样一个原则,在这个原则的基本思想指导下展开工作。

《新一代人工智能发展规划》于 2017 年 7 月 20 号发布,7 月 23 号科技部就在国家指导下成立了新一代人工智能产业技术创新战略联盟。这个联盟要做什么?千头万绪,可以说联盟产学研资用各方面的事情都可以做、都应该做,但是最核心的是怎么把这些工作组织起来。我们成立的时候就明确了,新一代人工智能产业联盟的核心工作就是建设人工智能的开源开放平台,用这个平台来把刚才说的产学研资用各方面的社会力量汇聚在一起,支撑国家新一代人工智能规划的落实。

中国AI开源开放平台的现状与挑战

联盟支撑国家规划落地的核心工作叫“一体两翼”,一体就是新一代人工智能开源开放平台,两翼是各种工作组和推进组。

今年 6 月份,科技部有一本期刊《前沿科学》报道了我们国家新一代人工智能的进展,当时跟我约稿,我写了一篇文章,我今天的题目也是来自这篇文章,叫做“坚定开源开放原则,筑成新一代人工智能”。因为经过了差不多两年的发展之后,大家对中国的人工智能怎么发展已经有很多的讨论,到底是开放还是封闭,大家有不同的看法。我用这个词的意思就是坚定开源开放原则,不仅是开源开放,而且要更开放,这是当时定的原则。我们不能因为两年之后国内外形势有一些变化就退缩了,不应该这样,而应该更坚定地做开源开放。而且开源开放不仅仅是一个机制,它本身就是一套技术体系,也是建成新一代人工智能最重要的一套推进体系。所谓中国新一代人工智能,到 2025 年、2030 年大家想象的人工智能是什么,这里面当然有一些科技亮点、重大成果,但是它首先是一个整体的技术体系,这个体系才是新一代人工智能,它不是几个闪光的点,它是像一个城市一样,是一套坚实的体系。

为什么要这么做?当时分析了这么几个点:

第一是为什么要做开源开放,有很多的理由,我认为最重要的理由有两个,一是只有通过开源开放的方式,才能把技术的辐射性发挥出来,才能把国家的投入、社会的投入,以及大家的智慧,发挥最大效应。我们不能再走回一个公司做一个产品,自己保密,靠一件一件产品盈利的老路上。二是 AI 跟别的技术不同,AI 是一个难以透彻理解的技术,在 AI 之前所有的技术,包括算法系统,其背后原理是可以理解的,且过程也是完全可控的,但是 AI 具有难以透彻理解的特性,它越发展,挑战就越大。就像今天的深度学习工作得很好,大家就说我们要研究它的可理解和可解释性,因为不知道为什么工作得那么好,但是它的性能很好,大家在实践中就去用。这样一种现象,未来不管什么样的 AI 新方法模型,都还会持续下去。因为它是智能的,智能是一种功能,是一种现象,它背后的机理的理解,是我们在探索智能科学和技术过程中永远需要面对的一个问题。这类技术存在不能透彻解释的特性,如果在现实中应用,还不开放,大家敢不敢放心去用?所以如果从理论上做不到可解释,不能透彻地理解,至少我们在技术上要做到开放,让大家心里清楚这里面没有暗藏什么东西,它只是一个技术。技术有这么一个属性,我们科学家可以去解释它、探索它,但是技术上绝对不能封闭,封闭的东西是不可能有生命力、让大家广泛使用的。

第二是如何做好开源开放。实际就是要联合在一起,某种程度上要放弃一部分个体与企业的商业利益,而让大家能够共享、共建,发挥最大效应。这个思维方式在开源社区大家是比较认同的,但是在整个社会领域,特别是在中国现在这样的状态下,大家对开源可能用的多,贡献的相对少,这需要大家一起来持续推动。

第三是以开源开放提升创新质量。开源开放以前也存在,但是以前的开源开放和科技创新之间的关系通常是两张皮,这种两张皮的现象,希望通过 AI 这样一个新的领域结合在一起。事实上我们讲科研,确实有很多高水平的研究团队在努力做创新工作,但是确实也有一部分团队是拿项目作为目的,而不是以研究创新作为目的的,这种现象在中国也不少见。我们希望通过开源的方式,把这一类项目淘汰掉,不是为研究而研究,一定要做有意义、有价值的研究,一定要开放。

去年新一代人工智能重大科技项目,以及今年马上要发布的重大科技项目的指南都很明确地提到,特别是搞理论研究的,必须要开源。你本来就是一个无人区或者是号称前沿的探索,你不告诉别人你在做什么,等到几年之后交个报告,就说自己做得怎么样,这是有问题的。现在是一个开放的时代,一开始就应该打开这个过程。开源开放实际上是在提升创新质量,如果真是一流的研究,就不怕大家去知道、了解,甚至去参与、贡献。只有那些自称很好,事实上没有什么东西的研究,才不敢开源开放。我们也希望将这种方式用到后续国家项目的推进过程中。国家出的钱,或者是地方政府出的钱,公共资金做的东西,你有什么理由把它封闭在自己手里?你愿意自己做,不用公众的钱,那没问题,爱做什么就做什么;既然拿公众资金,就应该开源开放。我们希望通过这种方式把那些低水平重复的工作、没有实质性创新的工作淘汰掉,来实现更高质量的创新,这也是我们要坚持开源开放的一个很重要的理由。

在国家新一代人工智能重大科技项目的部署中,软件、硬件的体系就是很重要的一部分,它也是连接研究团体社区和开发应用,以及全社会的一个很重要的渠道,这条原则会在未来十多年的科技创新 2030 重大科技项目中不断地贯彻下去。所以大家做开发并不仅仅是传统的做一个操作系统或者代码的开发,它跟我们 AI 的研究结合得越来越密不可分。

在去年新一轮人工智能重大科技项目的落实中,还有一个词大家在媒体上也看到过,叫“开放创新平台”,由 5 家企业承担了国家新一代开放创新平台,这 5 家企业是:百度、阿里、腾讯、讯飞、商汤,大家从不同的方向推动创新。开放创新肯定不等于开源,并不是说这些企业做的所有东西都要开源,但是他们也要开放,形成产业链。虽然一开始的时候有的开源,有的不开源,但是随着它往下发展,他们其中有一部分,特别是公共部分是要开源的。为什么要开源?因为相互之间要打通,要合作,要为整个社会人工智能的发展提供公共平台。

除了这些领头企业之外,全世界做开源的企业,包括做研究的机构非常多,怎么让这些机构能够深度地介入到这样一个开放创新过程?如果一点都不开源是不可能做到的,除非你是一个垄断一切的企业。但是我们今天没有这样的企业能够垄断一切,每一个都是这个社会创新的一个节点、一个部分,所以他们在一定程度上都是要开源的。这些开源的部分和我们刚才讲的开源会形成一体,就像一个热带雨林一样,有的植物比较大,有的植物相对比较小,但是最终的根系是连接在一起,在一个共同的生态里生长。

为了做好这件事情,2018 年 3 月 31 号联盟发布了启智开源许可证 OIL,这个许可证本身的政策也一直在讨论中,大家如果感兴趣可以参与到它的维护和更新里来。

从 2018 年 3 月 31 号发布许可证到今天,不到两年的时间里面,联盟组织了大量的工作,开了很多会,我就不一一说了,今天是一系列会议中最大规模的会议。

我们现在是一个开源开放的社区,在这个社区里面有一套运行的机制,总体来说这是由会员组成的一套体系,这里面包括核心成员、高级成员、普通成员和合作伙伴。谁是高级、谁是核心,这就以贡献论英雄,大家在建设这样一个平台和构建这个社区的过程中,领导力会逐渐体现出来,单位的贡献也会逐渐累积,大家都能看得到,根据这些贡献逐渐形成我们的领导体系。

保障这套体系背后的是一些规则、文件和大家形成的共识,现在体系化的系统也已经建立起来了。

中国AI开源开放平台的现状与挑战

我今天是代表技术委员会来跟大家作报告,技术委员会已经做了很多技术讨论。我在北大工作,更多的是搞研究,做一些科研方面的事情,一开始为了把这件事情推动起来,由我牵头组织。技术委员会的曾炜来自鹏城实验室,马艳军来自百度,黄之鹏来自华为,余跃来自国防科大,刘祥龙来自北航,曹祥来自微众。这些是第一届委员,目的是把工作先做起来,希望后面有更多的贡献者之后,我们会一个个逐渐被替代掉,将来大家凭贡献来进入技术委员会。

从今年 1 月 27 号筹备这个技术委员会,讨论 OpenI 背后的重要技术问题开始,我们正式的会议已经开了 5 次,进行了十几次讨论,多数是通过视频会议的方式,因为大家来自全国不同地方、不同单位,很难集中在一个会场。1 月份开了第一次会议,后来又举行了几次重要技术问题的讨论会议,7 月 19 号开的是第二次正式会议,在这次会议上把我们的技术架构建立起来,9 月份的会上我们讨论了怎么去建好一个开源的生态。最近这两次会,一个今天的大会,另外一个是关于激励机制怎么建立起来的讨论。

中国AI开源开放平台的现状与挑战

如上图,第一届技术委员会成员主要是来自贡献比较多的单位,包括鹏城实验室、智源、北大、国防科大、华为、百度和微众银行,还有其它的单位也在做贡献。下面罗列的 Logo 是贡献比较多的单位。

中国AI开源开放平台的现状与挑战

上图是现在支撑 OpenI 运行的技术体系,是在 6 月份确定的。

我们可能跟大家通常理解的开源有区别,OpenI 既不是像 GitHub 那样支持各种开源项目的管理平台,也不是一个类似 TensorFlow 这样的具体的开源框架,它是围绕 AI 的一批开源项目,而且这些开源项目不仅要管理,支持大家在线开发,它还要运行。它不是一般的代码开发、机器编译运行就可以了,OpenI 还需要强大的算力支持大模型的运行。所以我们在建立这个体系的时候,基础设施就不仅仅是通常的云计算或者是自己的机器,而是要有一个基础系统。这个基础的系统包括两个方面,蓝色的部分是训练平台,橙色的部分是运行平台,也是通常大家理解的云设施。目前提供算力最大的是来自鹏城实验室的云脑 1 号、2 号。通常你要是开发一个 AI 模型,是在深圳计算的,联网、分布式调度正在进行中,未来会在全国各地陆续上线,提供更多的计算能力。华为云是我们使用的开发体系,因为大家都是在全国各地、各个单位参与开发,因此我们通过华为云来提供支撑服务。

新一代人工智能的基础硬件、开源芯片也是我们开源体系的一部分,当然它还在起步阶段,希望有一天它能够成为支撑整个体系运行的重要组成部分。9 月 25 号我们上线了 OpenI 开源芯片项目,属于基础设施层。

中间层是软件环境,包括三个方面:一是运行环境,就是为 AI 训练提供基础的软件环境,章鱼、珊瑚本身是开源项目,同时也是支撑我们运行的两个重要项目;二是开发环境,就是启智、磐石和华为软开云构建的环境,大家可以在上面上传、调试代码;三是数据协同环境,因为 AI、特别是大数据类的 AI,需要很多数据的共享、交换和分布式训练,因此我们 6 月 18 号上线了 OpenI 纵横,它自身也是一个开源项目,同时它支撑 OpenI 数据方面的任务。

最上层是大家熟悉的开源框架,比如机器学习框架飞桨,这是百度贡献的框架,还有视频的开源项目,后续还会有一系列项目上线。

大家看我们过去一两年构建的平台,主要是底层的基础设施,它本身又是开源的,大家可以对这些基础设施不断地做出更新、贡献,使这个平台越来越强大,我们也欢迎更多的开源项目出现。

整体我们有一个社区,这套社区体系基本上是完整的,也希望大家在未来的工作中继续完善这样一个体系,促进更多开源项目的培育、孵化、成长。

刚才高文院士讲了启梦计划,实际上是激励,也是近期技术委员会讨论的一个很重要的任务,就是怎么更好地激励大家、支持大家开源开放的工作。以前开源很多的动力来自于志愿者,大家天生就愿意做这件事情,也来自一些企业的支持。既然新一代人工智能是国家支持的重要组成部分,支持范围就会比传统的更广泛,包括刚才提到已经提供支持的鹏城实验室等核心成员单位,可能几天之后就会有国家科技部、发改委的支持启动。这些国家的力量、企业的力量、社会的力量怎么作用到贡献者,这就涉及到怎么激励大家,激励也是社区建设的一个重要的组成部分。我们刚才说的都是源头,这些资源来了,比如说国家的项目来了,有这些核心单位牵头启动,最终它要落实到一个一个贡献者身上,这就是所谓的激励计划。这套体系正在建立过程中,我们希望真正能够让这些愿意支持开源的资源用到支持开源的技术人员身上,这就是启梦计划的一个基本想法。当然,贡献大小怎么去衡量,我们在社区里边建立好体系之后,资源就可以按照贡献去匹配和落实到位。

开源许可证从去年 3 月份发布之后,到现在一直在讨论,因为它是一个法律性很强的规则,尽管篇幅很长,但是它决定了我们将来这些代码怎么用,将来商业化使用是不是存在约束,以及大家的贡献怎么更好地体现,这样一些最核心的权益,这也是社区里面在讨论的很重要的组成部分。到今天为止我们已经有一个 2.0 的 Alpha 版,在这两天的会议期间大家也可以就这个问题进行讨论,后续有更多的时间,还可以讨论。其中主要的基本思想是,我们的许可证不像以前仅仅是对代码的管理,在云计算时代,不一定是把代码拿去开发一个产品,很多本身就是服务,所以在这个时代怎么做好开源的管理非常重要。

总结一下,从当初把开源作为联盟的一项核心工作到现在,我们已经把整个体系建立起来了,开源就是驱动整个联盟运行的核心力量。还有一个是标准,今天没有时间展开讲,但实际上关于标准的讨论会是三个月举行一次,到现在已经开了第七次会,马上就要开第八次标准的讨论会。我们开源的有些关键技术、关键接口需要跟其他接口互联互通时,需要通过标准的方式去做。联盟是国家团体标准的制定单位,也是国家标准,我们做的团体标准可以通过绿色通道上升为国家标准。这是国家标准委给我们的一个责任,这两个结合在一起,会对将来的整个产业生态发挥重要作用。 联盟工作组、推进组,在这些方面也做了很多推动工作。

这套体系建立起来以后,就覆盖了底层的理论、技术体系,这是一直以来国家和地方项目支持的;中间的开源开放平台,包括平台本身以及我们的社区体系;上面的一套治理体系,比较偏软性,但也是我们长期发展的一个很重要的基础,希望为中国的人工智能发展,为全世界的人工智能发展构建一个良好的生态。

开源开放,共建共享,久久为功,这是一个长期的任务,希望通过我们这样一个体系为中国人工智能 2030 世界领先做出基础性的贡献。

评论

发布