NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

开源泰斗陆首群教授:开源创新已成为数字化转型、智能化重构的基础

  • 2023-03-17
    北京
  • 本文字数:5190 字

    阅读完需:约 17 分钟

开源泰斗陆首群教授:开源创新已成为数字化转型、智能化重构的基础

3 月 15 日,机械工业出版社、中国计算机学会联合主办了由中国计算机学会出版基金赞助项目支持的“计算机开源丛书·开源创新在中国系列”首部作品《开源创新:数字化转型与智能化重构》的新书发布会。

 

《开源创新:数字化转型与智能化重构》不仅详细展示了中国开源事业的发展历史和未来走向,也生动记述了陆首群教授在这一历史进程中的实践、观察和思考,可看作中国开源发展的缩影和见证,具有重要史料价值和现实指导意义。



本书作者、中国开源界领军人物陆首群教授在题为《开源创新在中国》的演讲中指出,如今开源已经成为全球的一种创新和协同模式,成为创新国家的战略需求。人们更加重视开源的溢出效应:开源创新已成为数字化转型、智能化重构的基础。从围绕企业产品的操作系统及其生态建设到结合研发基于开源的新一代信息技术及其应用,再到在经济双循环基础上规范建设或改造我国供应链,促进供应链数字化、开源化,中国开源的发展在经历了三个阶段后现已进入世界先进行列。

 

发布会结束后,陆首群教授接受了 InfoQ 在内的少数几家媒体的采访。以下为采访实录,经编辑。

对话开源泰斗陆首群教授



《开源创新:数字化转型与智能化重构》的创作故事

 

问:《开源创新:数字化转型与智能化重构》这本书的创作动机以及定位是什么?

 

陆首群教授:这本书的定位可以说是面向全球各行各业各阶层。另外,也照顾到国际同行,这本书也值得国际上很多开源大师、专家们看一看。在之前的一个活动中,国外的开源大师看这本书时也津津有味,因为这本书里有很多照片,即使看不懂文字,他们也能通过照片里的人,了解当时大概在研究什么问题。要给这本书准确定位的话,就比较复杂了。现在各方面都在拥抱开源,所以开源发展得很快,不是说几个专业单位、开源社区、开源基金会关心开源,还有很多人都在研究开源,像官员、教师,都是能受益的。

 

总体来说,写这本书的动机就是把开源进一步普及,进一步提高,促进开源的崛起。创作背景就是开源热度很高,大家都很关心,包括出版行业也很关心。我希望写个比较广泛的内容,希望能把开源观念讲清楚。

 

问:在本书的第二章中,您列举了一些重要事件,您个人认为其中最难、最艰辛的事件是什么?

 

陆首群教授:开源是一个学术体系。这个体系跟原来我们传统的体系完全不一样,它的法律概念也不一样。所以有人就把传统的法律体系称为右版体系,而开源所在的是左版体系。有时候对于某件事,右版体系认为它违法了,开源认为它没有违法;开源认为合法的,右版体系可能又认为违法了,所以好多概念就不一样。

 

因此,最关键的就是要理解开源的概念,理解开源的观念,理解开源的本质,这个是最难的。

对开源的理解

 

问:您从 20 世纪 90 年代就已经投入到开源中了,到今天已经 30 多年了,在整个过程中,中国开源整体的发展发生了哪些变化?

 

陆首群教授:我从 90 年代初就开始搞开源,工作的几条线都是平行的。一个是“信息技术”这条线,现在我们叫深度信息技术,也叫新一代的信息技术,包括云计算、区块链、大数据、人工智能。我们要把开源跟这些结合在一起,这些技术基于开源发展得会更好。另外一个是“互联网技术”,我们中国发展互联网建设也要结合开源往上推进。

 

很多技术都离不开开源,这里我举个人工智能的例子。2015 年,美国在人工智能方面做得好的四大企业:谷歌、微软、Facebook、IBM。后来它们发现人工智能做不下去了,达到瓶颈了。这四家大企业就把所有的人工智能框架、工具、软件内容通通开源,一下子解决了人工智能的发展瓶颈。

 

联合国在研究互联网的治理问题时,曾经找过几家组织:第一家是印度政府;第二家是谷歌公司;第三家是我们中国开源软件推进联盟;第四家是哈佛商学院;第五家是 GitHub。这五家组织共同来讨论互联网的治理下一步怎么做。我们联盟在这次会议的讨论中,举了一个百度 Apollo 无人驾驶项目的开源案例。有人就问我说,技术开源给别人了,我们还有什么优势?我说你放心好了,这是两码事。

 

百度的 Apollo 成为全球最活跃的自动驾驶跟无人驾驶的平台之一,汇集了 7 个国家的 65,000 名 志愿开发者一块来开发,完成了 60 万行的开源代码。另外它还跟全世界的 210 家合作伙伴建立了供应关系,这个就是开源的优势。原本只有 1 个人开发,现在有 10 个人帮你一块来开发,效果就好多了。

 

问:最近几年,国内越来越重视开源,如果我们想更好地构建国产化的开源生态体系,还需要各方做出哪些努力?

 

陆首群教授:开源生态跟开源发展的关系非常之大。拿华为来说,我认为华为手机必须国际化,不能只在中国卖,要有国际化的生态。从技术层面上,华为要搞生态是没问题的,但这里面有好多因素在干预。开源有一个重要的特征叫协同。企业自己要主动,也要在国内找开源组织,帮企业一块来链接生态。

 

问:构建一个良好的开源社区的生态和实现一个开源项目的商业化盈利之间怎么把握平衡?

 

陆首群教授:关于开源商业化的问题,国内一些企业还是没有搞清楚。现在社区开发的版本都是开源的、免费的,是可以从网上自由下载的。但如果我们从头到尾都免费拿走,谁还搞产业?这样开源是发展不起来的。

 

所以就有了从社区版发展而成的企业的商业发行版,这里包含了社区版,但是又不同于社区版。当企业要引领产业的时候,要在这上面加一个透明的环,这个环是什么呢?就是针对原来社区版的框架改造。由于社区版不够成熟,稳定性不好,所以还要进一步测试。另外还要做好维护,因为不管是开源还是闭源软件,都会产生大量的 Bug。

 

另外生态建设也包含几个方面:硬件的生态,软件的生态。生态建设有开源的,也有闭源的。其次产品还要有安全模块和质量认证保障,这些也不一定是开源的。所以要把开源的社区版本跟开源的商业发行版本区别开来。

 

将来要引领产业的主要是商业版本,不是开源版本。中国现在有几种情况,一种是我拿到你的开源社区版,我自己就做产品了,别的东西不要了,这个是不行的。第二种是企业拿到社区版本后自己封起来了,这个更不行。所以,开源发展的概念和做法要明确,这样的话才能保证开源发展引领产业。

 

问:企业面对现在的数字化浪潮,怎样利用开源来进行转型升级和创新?

 

陆首群教授:我个人的观点是,现在的中国要从工业社会向信息社会发展,但是现在从工业社会向信息社会发展还缺少条件,因为我们现在连个试点地区都没有。我们现在是工业社会,再进一步发展是后工业级社会,比如像美国现在已经进入后工业级社会,当然它也不是信息社会,而只是有信息技术。

 

另外关于创新的问题,我希望是社会各界来把它重新演变,所以这里面就要找两个空间,一个是虚拟化的数字空间,一个是现实的物理空间。这样可以解决工业社会的业态到现代化的创新,一种从 0 到 1 的创新。

 

高阶社会是信息社会,空间也是信息空间,低阶社会是工业社会,也是现实的空间,物理空间。信息社会实际上也是分层次的,底层是数据层或者数字层,数字层上面是信息层,信息层上面是知识层,知识层上面是智能层。这 4 个层次里面,最基础的、最关键的就是数据层。按照欧洲人的说法,就叫 Cyber-Physical(信息物理)。

 

现在我们都说发展数字化就是这个意思。数字化再扩大一点,就是数字网络化,再扩大才是数字经济。数字化实际上是代表信息化,从底层到高层基本上是这样一个概念。

 

问:Linux 系统目前的部分代码存在于美国的一些托管平台,如果因为地缘政治的关系,托管平台不对中国开放了,那中国的企业应该如何应对?

 

陆首群教授:这有几个条件。第一,Linux 系统是开源的;第二,Linux 系统现在发展得很快。Linus 做出来操作系统以后,以现在的视角来看,当初的开源发展是有问题的。作为一个产品,Linus 告诉我,最初的社区是不收费的,后来我知道的也只是收取很少的费用。所以这种情况下,开发者都是利用业余时间从事开发,平时需要找一份工作,来满足生活、家庭和开发的需求。这些问题是要解决的,后来 Linus 做出来操作系统后,他也在一家公司打工,有了 IBM 等多家公司提供资金支持研究后,Linux 的发展才开始加速。

 

我们之前做过一场圆桌会议,讨论现在美国 IT 领域排名前 20% 的企业做开发,曾经 80%~100% 是企业内部开发,现在则大多是企业外部开发,就是因为有开源的资源,它们等于站在巨人的肩膀上向前走,所以开发速度很快。我国还不能完全利用外面的资源,为了解决这个问题,首先,不仅要把开源发展好,还要把科学国际关系发展好;其次,我现在组织了一个开源高地,开源高地也是科技的高地,新兴的高地,人才的高地。我希望将来的开源,能沟通全世界。

“ChatGPT 不开源是说不过去的”

 

问:能否讲讲您理解的 ChatGPT?

 

陆首群教授:人类很喜欢让计算机跟人来对话。机器能“翻译”人说的话,但目前还不够准确,所以在这种情况开发了 ChatGPT。但是还有些麻烦。机器不能识别很多综合性事物。举个例子,比如汽车,其实训练一个三四岁的小孩两三个月,他不管是红汽车、绿汽车、蓝汽车,他认为都是汽车,这是人类的思考。计算机可不行,绿汽车和红汽车是两码事,蓝汽车更是另外一回事。有好多程序的东西,计算机不识别,就卡在那里。这说明,计算机缺少知识的逻辑特例,得推理,要是把概念弄在一块了就推理不了了。

 

所以 OpenAI 一开始做了个类似字典的东西,就会把蓝汽车、红汽车都叫汽车,甚至把卡车也叫汽车。字典不行的话,就用大数据,把字典换成语料库,里面是语义,这样一来精确度就很高了。这些都是基于机器学习,或者叫深度学习。如果想更准确,那就把由语义构成的“字典”弄厚一些,但它终究还是弱人工智能,还是做不到强人工智能的事情。

 

问:您构想的未来的人工智能是什么样子?

 

陆首群教授:这个问题在全世界都有争论。现在的人工智能属于弱人工智能,其中的代表技术叫机器学习、深度学习,这个是弱的。现在的人工智能能做到什么事呢?比如人脸识别、语音识别、图像识别、自动驾驶,一些新药和新材料的发现,也能够依靠人工智能去解决。但进一步的,现在都做不到。

 

我认为人工智能发展到未来会是什么样?现在看起来,接下来的挑战是类人人工智能——和人的思考是类似的。这方面的研究现在有一些苗头了,如果再进一步,能不能是超人人工智能,现在谁也说不准。如果人工智能超过人,那么人就变成人工智能的奴隶了,听起来恐怕有点夸大其词。但是,现在看起来,弱人工智能迈向强人工智能,这一步是很艰难的。

 

问:ChatGPT 到目前为止还没有开源,但市面上已经出现了一些开源的替代品,有人说开源最终会吞噬人工智能,您怎么看这个问题?

 

陆首群教授:最近很多专家问我这个问题。ChatGPT 现在不开源,是因为公共保障还没有完善,因为你真的要在市场上面宣布全面开源,还要做好多事情,法律、商业、技术的,现在还顾不上这些问题,但我估计它是肯定要开源的。ChatGPT 是基于机器学习的,机器学习技术是开源的,ChatGPT 不开源是说不过去的。

如何保持对新技术的敏锐度?

 

问:您是 20 世纪 30 年代生人,1953 年上大学,现在快 90 岁了,精神状态这么好,实现了清华的“为祖国健康工作 50 年”,请问您是怎么做到的?

 

陆首群教授:我 1953 年进北京,到八几年的时候,我已经工作了好几十年了。那时候清华大学没有计算机系,也没有自动化系,电机系是最有名的,我是奔着清华电机系去的。那时的清华大学,在教育战线上的目标是要培养又红又专的红色工程师。那时我们分配工作,祖国需要我们到哪个地方去,我们就去哪里。我们甚至愿意到西藏去,到边疆去,没有二话的。生命力跟年龄有关系,但是更主要的跟你的精神状态有关系。

 

问:您对新知识包括 ChatGPT 等新技术还能保持这么敏锐的捕捉度,随时能跟上现代知识的更新,您是怎么做到的?

 

陆首群教授:我的学习有个特点,就是干哪一行,就把原来干的跟这个无关的都抛掉,抛掉之后我就钻进去研究这一行,我必须要弄清楚它的基本概念以及整个行业的思路,否则的话就别搞这个东西。

 

比如数学,我当时学数学还是下功夫的。我曾经就统计数学的相关理论在日本做过讲义,也曾与斯坦福大学数学系主任进行过深入的学术探讨。有一次在我国举办的数学年会上,日方问工作人员“你们有一位陆先生,怎么不请他参加?他在日本还挺有声望的”。工作人员说:“哪一位陆先生,我们大学里没有陆先生,科学家也没有陆先生。”后来才知道,这位“陆先生”不在教育领域,也不在科研领域,这个人在工业领域。


问:您喜欢理论数学还是应用数学?

 

陆首群教授:应用数学。

 

问:您觉得人工智能是应用的还是理论的,或者两者皆有?

 

陆首群教授:现在国内好多人都在做人工智能,现在的人工智能是弱人工智能,它的一个理论是统计理论。人工智能当时在我国发展较缓慢,在这种情况下,我们自己就办两件事,一个我自己在这里面进行研究,另外一个是得从头到尾弄清楚人工智能的发展情况,这些你只要下点功夫就行。于是,我们做了一个平台,通过这个平台展现人工智能发展的情况,同时也促进国内外业内人士的交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-03-17 16:235824

评论

发布
暂无评论
发现更多内容

SpringBoot-技术专题-war包部署读取外部配置Properties

洛神灬殇

c++ primer -- 第14章 C++中代码重用

Dreamer

c++

Caffe 安装踩坑记录

Dreamer

caffe

Forsage矩阵系统开发,智能合约搭建

薇電13242772558

架构师训练营第 1 期 第 3 周作业

李循律

极客大学架构师训练营

接口测试人员需要掌握的知识技能

测试人生路

接口测试

EDA最强攻略,如何为EDA选择存储?

焱融科技

分布式 高性能 存储 半导体 EDA

SpringBoot-技术专题-war包部署读取外部配置Yml

洛神灬殇

C++ 第九章 内存模型和名称空间

Dreamer

c++

C++ primer -- 第十章 对象和类

Dreamer

c++

C++ primer -- 第17章 输入,输出和文件

Dreamer

c++

C++ primer -- 第18章 探讨C++新标准

Dreamer

c++

写文档太麻烦,试试这款 IDEA 插件吧!

程序员小航

Java markdown IDEA idea插件 文档

MySQL中事务的持久性实现原理

X先生

MySQL 数据库 sql 数据库事务 事务

C++ primer -- 第十三章 类继承

Dreamer

c++

独立显卡市场又一巨头跻入,英特尔锐炬® Xe MAX 独立显卡来了!

E科讯

架构师训练营第 1 期 第 5 周作业

李循律

极客大学架构师训练营

一个研发团队是如何坚持7年技术分享的?

PingCode

团队管理 程序员 敏捷开发 研发管理 技术分享

TensorFlow 篇 | TensorFlow 数据输入的最佳实践

Alex

tensorflow keras input pipeline dataset

当下工作流管理系统的发展趋势

Marilyn

敏捷开发 快速开发 软件架构 企业开发

在2020年更受关注和追捧的JS框架

葡萄城技术团队

react.js Vue js Svelte

C++ primer -- 第十二章 类和动态内存分配

Dreamer

c++

C++ primer -- 第十五章 友元,异常和其他

Dreamer

c++

面试时说Redis是单线程的,被喷惨了!

redis 编程 程序员 计算机

直播预告 | CloudQuery初体验——安装及多数据源连接

BinTools图尔兹

数据库 sql 安全 工具软件 dba

C++ primer -- 第16章 string类和标准模版库

Dreamer

c++

目标检测综述

Dreamer

Docker底层技术

混沌畅想

Docker 容器 DevOps 底层技术

架构师训练营 1 期第 6 周作业

木头发芽

TypeScript魔法堂:函数类型声明其实很复杂

肥仔John

Java typescript

C++ primer --第十一章 使用类

Dreamer

c++

开源泰斗陆首群教授:开源创新已成为数字化转型、智能化重构的基础_文化 & 方法_凌敏_InfoQ精选文章