北大 AI 公开课 2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

阅读数:3433 2019 年 4 月 27 日 14:00

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

本文由 InfoQ 独家整理首发,未经授权请勿转载

与 AlphaGo 大胜各路围棋高手时的盛况相比,如今的人工智能正在步入冷静期,越来越多人开始关注人工智能的落地场景是否刚需,以及它实际能够给行业带来多少价值。当前人工智能技术到底达到什么样的水平了?它在不同行业的落地情况又如何?未来 AI 会给各行各业带来什么变化?4 月 24 日,北大 AI 公开课第十讲如期开讲,科大讯飞 AI 研究院常务副院长刘聪在演讲中与大家分享了讯飞过去 20 年做人工智能积累的经验和趟过的坑,一览人工智能发展现状。

北京大学最受欢迎的 AI 公开课“人工智能前沿与产业趋势”于 2019 年 2 月 20 日正式开课。本学期的课程邀请到了商汤科技副总裁沈徽、驭势科技 CEO 吴甘沙、微软亚洲研究院副院长周明、360 人工智能研究院院长颜水成、YC 中国创始人及 CEO、百度集团副董事长陆奇等 14 位来自产业界的大咖进行授课,AI 前线作为独家合作媒体将全程跟进并对北大这 14 场公开课进行整理,敬请关注!

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

课程导师:雷鸣,天使投资人,百度创始七剑客之一,酷我音乐创始人,北大信科人工智能创新中心主任,2000 年获得北京大学计算机硕士学位,2005 年获得斯坦福商学院 MBA 学位。

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

特邀讲者:刘聪,科大讯飞 AI 研究院常务副院长。长期从事语音识别和人工智能等相关领域的研究。2010 年起任科大讯飞研究院研究主管,在 2010 年 10 月科大讯飞推出“讯飞语音云”前后,全面负责讯飞语音云中语音识别核心效果的优化,并持续将深度神经网络等国际最新研究引入讯飞语音云系统中。2014 年底开始,全面负责科大讯飞图文识别、医学影像、视频分析等方向的研究,带领团队在多项计算机视觉国际评测中获得佳绩,相关研究成果在多个内部产品中成功应用。获得 2018 年度 MIT TR35 China“先锋者”和中国计算机学会(CCF)杰出工程师称号。

北大 AI 公开课第九讲回顾:《好未来杨松帆:为人工智能时代打造 AI 老师》

以下 AI 前线独家整理的刘聪老师课程内容(略有删减)。

今天分享的题目是《人工智能的“顶天立地”之路》,其中“顶天”指的是核心技术要做到领先位置,“立地”指的是技术不只是发论文或纯学术研究,而是要真正能够赋能各个场景或改变不同的行业并发挥价值,这两点也是科大讯飞在成立 20 年间一直强调的。

如今回顾过去几十年人工智能的发展历程,“顶天立地”这个词同样适用。人工智能的整个发展历程其实就是不断追求技术高度、挑战技术极限,同时也在持续追求这些技术到底能不能发挥价值。因此今天我想从讯飞过去 20 年积累的经验和趟过的坑切入,就讯飞在“顶天立地”的追求和方法论的积累跟大家做一些分享。

整个演讲会从“五个 W”问题来展开,不管是学术界还是产业界,都需要把这 5 个问题搞清楚。首先是 What,人工智能到底是什么以及它的整个发展历程;第二个是 Where,到底现在人工智能的技术在各个场景上达到了一个什么样的水平;第三个是 How,人工智能如何实现的,以及实现以后获得了哪些成功;第四个是 When,到底人工智能什么时候才能走进我们的生活并产生落地的价值;最后会聊聊,在人工智能的浪潮当中,我们每个人、每个公司所处的位置,未来我们找工作,甚至我们的孩子未来报什么专业有没有一些导向。

What:人工智能是什么

关于人工智能定义非常多,我比较认可的是 2018 年一份人工智能白皮书上提到的定义:人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

上面这张图可以结合 Gartner 提出的技术成熟度曲线来看。当一个新技术刚刚提出来的时候,往往会引起大家的高度关注,尤其是媒体,于是技术曲线就会往上冲得非常高,但正常来讲,技术的发展有自己的规律,达到一定高度后可能会发现这项技术满足不了用户的需求。于是随着大家认知跌落之后它又会回到谷底,有的技术可能回到谷底之后就能再也起不来了,有的时候随着用户预期跟技术能力慢慢互相适应之后,这项技术又会渐渐从底部走出来。

人工智能从 1956 年在达特茅斯会议上提出到现在,已经经历了三次浪潮,每一次其实都跟 Gartner 曲线有很大的关联。我们现在所处的阶段,看起来好像又快到一个新的二十年了,但从目前来看,这次比以前的状态好一些。围绕刚才说的这个曲线,我们也发现了一些很有意思的地方:其实每一次的曲线中,期望都是大众推高的。当某一个人工智能技术成熟之后,大家可能就不当它看作人工智能了。比如车牌识别、人脸识别、拼音输入、手写识别等等,以前刚刚出来的时候,大家会觉得非常新鲜,但到现在如果没有这个功能或者出了一个错误,大家就会觉得很奇怪。其实从某种程度上来说,也是大众的这样一种认知在不断推动着人工智能往前进步。

Where:人工智能现状如何

根据技术实现的难度,我们一般会把人工智能划分成几个阶段:第一个阶段,能存会算的运算智能;第二个阶段,是能听会说、能看会认的感知智能和能抓会握、能走会跑的运动智能;第三个阶段,是能理解会思考的认知智能。

运算智能

首先看一下运算智能,虽然 AlphaGo 已经解决了围棋问题,看上去非常强大,但本质上围棋问题仍然是一个空间有限的任务。只要是有限任务,从理论上来讲,都是可以堆运算力去解决的。所以人工智能下围棋这个问题本来就是能解决的,而 AlphaGo 之所以轰动,是因为它通过一些巧妙的方法把这个问题解决的时间提前了 20 年,让我们能够在现有的运算能力下干这件事。

机器的运算智能虽然也有一些学习规则,但是跟人的思维方式是不一样的,在这种场景之下,机器是有一些天生优势的。除了象棋围棋,还有像最强大脑、记数字等类似的问题上,当前的机器水平已经远远超过人类了,这就是运算智能当前的状态。机器学习的速度,跟人类学习的速度至少是一个数量级的差别。人工智能的魅力就在于它的持续向前进化能力和无成本复制能力,这是人类自身无法比拟的。

感知智能和运动智能

感知智能指的就是机器能听会说、能看会认的能力。从感知的角度来说,机器进步很快,与人类越来越接近。

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

以上图的语音识别为例,纵轴是语音识别的错误率,越低越好,横轴是时间。在评估语音识别效果的时候需要先限定场景,才有意义。在八九十年代的时候,朗读形式的语音识别已经做得很好了,准确率能够达到 95% 左右。但是在深度学习出现之前,如红色折线标记的对话式语音识别错误率一直在 20% 左右,很难做好。有了深度学习之后,识别错误率开始显著下降,在 2017 年左右已经可以做到 5% 左右,我们可以把这看作和人的水平是相当的。在图像识别领域也是类似的,像 ImageNet 这种大型图像识别任务每年错误率的下降速度也非常厉害。每一年的算法提升,可能相当于过去 10 年累计在一起的算法的提升,这也反映了感知智能的水平确实在快速提升。

再看运动智能,人类通过视觉直接判断位置并控制肌肉完成动作,而机器则是通过摄像头判断位置并计算出位置和力度。目前机器在运动智能这块跟人的水平还是有差距的,但机器人也有它自己的一些特点,比如它可能会利用超声波或红外等能力来增强自己在这方面的能力。

认知智能

语言是人类智慧的重要载体和基础,没有语言人类不能组成大量团队,没有语言人类没办法维持社会结构,没有语言就不能产生虚构的概念。语言的广泛使用,是产生“认知革命”的起因。从人工智能研究的层面来讲,自然语言理解难度也非常大,因此被称为“人工智能皇冠上的明珠”。但实际上,人类智慧是基于多模态的,不是纯粹的语言符号就能闭环自洽的,语言知识人类智慧的载体和表层。虽然我们现在也有基于多模态的研究,但还有很长的路要走。

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

认知智能是人工智能目前最大的挑战,特别在知识表达、逻辑推理等方面。

How:人工智能如何实现

人工智能技术流派可以分为强人工智能和弱人工智能两类。其中强人工智能指的就是能够真正像人类一样思考,不需要基于很多样本做训练,这目前还属于前瞻和基础研究状态,主要以脑科学研究为主。而弱人工智能则是让机器表现得“像”有智能,但其中实现的过程和人脑真正的机理差别是非常大的,更多还是在大数据 + 深度学习的支撑下带来突破,这也是当前人工智能的主流技术路线。

人工智能有三种实现路径,第一个是深度学习。我们曾经把算法、算力、大数据叫做人工智能的三大法宝。只要有足够多的、有监督的、海量训练数据样本,深度神经网络就可以达到可媲美人类的智能水平。以我们目前使用最多的深度神经网络 DNN 为例,它可能会使用 10^11 个训练样本,需要 10^7 个参数,而这些参数可能在 GPU 阵列的支持下经过 10^9 次迭代更新,最终使整个神经网络达到人类可比的智能水平。

第二个实现路径是全脑模拟,包括我们知道的美国前总统奥巴马提出的“大脑活动图谱计划”、欧盟的“人类大脑项目”、中国正在酝酿启动的“中国脑计划”等走的就是这条路线。其原理就是利用超算模拟大脑的活动方式,将大脑的活动保存下来,就像“电子永生”一样。当然这对存储或者运算的要求可能比我们现在最强的计算机,还要高出几个数量级。现在我们还做不到这一点,而且即使未来能做到这一点,其实它也不具备推广能力,因为背后要求的运算支撑实在是太多了。这个实现路径目前属于非常前瞻的局部研究。

第三个实现路径是智能动力学,就像钱学森的导师冯卡门专攻空气动力学最终造出飞机一样,是否能将人类的学习机制等提炼出来,跟我们现有的模型结合。这条路现在我们也在努力,但其实也还有很长的路要走。

现在人工智能的研究还是以第一种实现路径为主流,整体来讲,感知智能中的语音和图像进步比较快,因为拥有更多数据;而认知智能,比如自然语言理解,在机器翻译这块做得还不错,但其他的问题如交互、行业专家知识等,并没有本质突破。

When:人工智能何时落地

最近几年,大家对人工智能的期望变化越来越快。2016 年的时候更多在提的是三大法宝:算法、算力、大数据;到 2017 年的时候说,得找落地场景,别光做 PPT;到 2018 年,还得找价值,别光找场景,如果这个场景不是刚需也没有用;到现在 2019 年,关键词已经变成了价值兑现,得赚钱。这也可以看出大家对人工智能的期望,以及人工智能技术的迭代速度都在不断提高。

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

但实际上,在学校做科研和真正在公司里面做人工智能的产品不同,后者的链条非常长。

基于讯飞在实际产品落地过程中的分析,我们认为人工智能在以下几种场景相对人类更有优势:

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

基于人工智能现有的优势,企业在人工智能落地方向上可以做出更好的选择。

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

对于人工智能的落地,基于技术成熟度评估的台阶设计至关重要。

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

以讯飞为例。讯飞成立于 1999 年,一开始只做语音合成;2002 年的时候,我们想做语音识别,但发现识别很难,所以我们退而求其次,做了语音评测(比如普通话识别,由机器代替老师自动打分),跟识别框架类似,但难度会降低;2005 年,我们开始做语音识别,刚开始我们想做难度更大的语音转写,但是当时技术还不够成熟,因此我们先做的是语音输入法,因为输入法是需要人配合的,输入的时候需要用户想一下再输入,而普通的说话是随机的而且比较复杂;再到 2011 年开始做语音交互,到 2014 年,在语音交互有了一些基础之后,我们开始在教育、政法、医疗等很多行业进行赋能。其中很多研究都是跟高校共同合作孵化出来的。

除了算法以外,数据和运算能力也是设计台阶的重要依据。

目前人工智能在落地主要分为两大类,第一,人工智能会通过机器与人的自然交互改变人类生活,另一方面,智能学习会颠覆很多需要专业人士的行业,如医疗、教育等领域。

计算机每发展十年,与人的交互会发生变化。键盘和字符形成第一代人机交互,鼠标和图形显示则构成第二代人机交互,而第三代人机交互则是以语音交互为主、触摸交互为辅的方式。

在行业方面,各行各业最稀缺的是专家,而人工智能要学习专家能力,并用机器学习替代专家。因此人工智能应用到各行各业可以改变各个行业的思维方式。目前讯飞在教育、医疗、政法等多个行业都有人工智能的落地应用。

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

Who:谁将弄潮人工智能

未来的商业模式到底会是怎么样的,这决定了我们,不管是个人还是企业,在这个过程当中所处的位置。因此我们需要从商业模式的层面对未来做一些预测,只有提前预测这,才能知道未来可能会发生哪些变化。

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

交互方式,将会从图形界面到触摸界面再到基于视觉呈现的交互;单纯的软硬件模式将会转变为软硬一体的“云 + 端”模式;移动互联网时代,更多出现的是巨头,比如 BAT、TMD 和所谓的超级 APP,但在未来,我们认为会变得更加多样化,包括传统行业,像银行、运营商、地产商、家电厂商,也都会一起参与进来;面向最终用户的产品,会从“大 C”产品,比如手机、汽车这种形态比较固定的大件产品,转变为一些更能体现出用户个性化需求的“小 C”产品,比如智能硬件、机器人等等;另外中国特色也会推动一些应用场景在中国的快速发展,比如视频监控。

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

互联网时代,企业通过网站提供服务,用搜索引擎来触达用户;而移动互联网时代最大的变化是智能手机的流行,AIOT 时代,我们会看到更多样化的硬件。未来冰箱、电视都可能会成为接口,每一个服务提供商都要建立自己的人工智能系统,通过这样的系统去更好地触达和服务用户。而分发渠道可能是结合 UI 和前端的硬件提供的一整套 AI 系统,包括讯飞、DuerOS 都在做这样的事情。通过软硬一体化的整体解决方案,既可以为开发者提供一站式的解决方案和技能平台,又能为消费者提供体验一致的场景化需求。

未来人工智能将无处不在,每个领域、每个行业,乃至每个企业都将有自己的人工智能平台,专注解决各自不同的人工智能问题,开发不同的产品和服务。彼此正交的不同公司需要建立紧密的合作,在新的生态下知识、经验、数据、利益的分享将变得更加重要,通过混合的方式建立新生态下的共赢合作是成功的关键。

小结

首先,我觉得知易行难。虽然我今天跟大家分享了讯飞的一些经验,或者说我们以前趟过的坑,但是可能在座的各位以后进入这个行业,不管是学术界、产业界或者创业,有些坑还是得自己趟,避不开。只有你自己去趟了,可能才会有更深的体会。但从另外一个角度讲,其实我们都很幸运能够出在现在这样一个时代。现在我们所能看到的人工智能未来的发展,其中积极性的因素和发展的空间,是比我们看到的风险或者泡沫更大的。所以,我相信大家处在这样一个行业,只要能找准自己的定位,想好自己想做的事情,未来机会非常大。我也非常期待,在这个人工智能还在持续发展的时代,我们可以在中国跟大家一起去建设更加美好的世界,谢谢大家。

Q&A

Q1:这个问题来自一名大一学生,他想了解现在 AI 人才的情况,如果现在开始学 AI 是不是太晚了?

刘聪:如果你是想对 AI 有更多的了解,这是一件好事。本质上更应该找到它背后最基础的东西,不管是 AI 还是机器人,还是其他的东西。举个例子,如果未来要做 AI 或者 AI 以后换个名字,它背后最基础的能力在哪里?可能是数学,可能是计算机,可能是数据分析的能力,或者我们刚才提到的统计学相关的知识。如果从选择方向来说,并不是说计算机系就不能学 AI,逻辑并不是这样的,包括讯飞招的很多人,其实并没有 AI 的背景,但他们可能有很好的编程的功底。所以这个问题的答案是说,只要跟这个相关的,或者这项能力本身,你认为在未来它是不会被淘汰的,就可以去学,其他的都不是最关键的,也不存在学的晚的问题。

Q2:现在这个 AI 的研发团队一般都是由博士生组成,这个硕士生他们感觉到这个发展的空间,或者地位比较尴尬,然后他们想问问您,硕士生应该如何规划自己的职业生涯?

刘聪:不同的公司对这个事情的看法可能不一样。至少从讯飞来讲,博士生的比例并没有那么高。其实还是本质的问题,到底读一个博士和读一个硕士,区别是什么?我们招生一般会有两种情况,如果是博士,换专业可能性就会比较小,因为博士已经在这个领域做的比较深了,反而是硕士,讯飞研究院招了不少原来专业跟 AI 没有任何关系的硕士生,比如通信、计算机,甚至学数学的都有。从我或者从讯飞的观点来看,对于硕士生,如果你的数学基础、编程能力等这些基础能力足够强,我们不会特别关心你到底有没有 AI 背景或者相关经历,这些都是可以后期培养的,所以我觉得不用太担心。

Q3:能否预测一下能够替代 80% 以上人类工作的人工智能大概会在哪一年出现?现在从事哪方面的研究,能够推动 AI 取代人类?以及这个突破点大概会出现在什么地方?

刘聪:这个问题本质上都是围绕取代人类,一方面担心被人类取代,另一方面心里面又有些小窃喜,我得做个什么东西更快地把人类取代。其实取代人类这件事,需要分开来看。首先,取代人的目的是什么?就像前面提到的,有些重复性劳动是可以用机器取代人类的。比如教师,很多人认为教师一定是不可取代的,但仔细分析就会发现,其实我们并不是要取代教师这个职业,而是要取代教师的某些工作内容。教师其实除了教学,还需要进行一些感情上的关怀,但现在的老师的工作已经完全被改卷子、出题目占满了,哪有时间去做对学生精神上的引导。回到刚才的问题,预测多少年会取代是咨询机构喜欢干的事,我个人觉得更多的还是阶梯式,可能是一个逐步演进的过程。更关键的问题是我们得分析,到底哪些属于重复性劳动,比如速记员、送快递等,这些重复性的工作未来肯定会部分取代。但是刚才说的一些需要人关怀能力的工作,包括教师、医生,这些都是不可能取代的,只是可以将他们解放出来,让他们去做更具有创造力的事,这是第一点。

第二点是说有哪些关键技术可以推动 AI 更快地胜任人类的一些工作。主要有两个方面,一方面是小样本学习、无监督学习这类可以更好地扩展到不同领域的技术;另一方面是人机耦合、人机协同这样的技术,随着技术的发展,即使在现有的框架之下,也可以逐步降低整个过程中人占的比例。

下期预告

5 月 8 日 周三晚 18:40,北京大学“人工智能前沿与产业趋势”第十一讲,将由百度金融技术负责人许冬亮为大家授课。

感兴趣的小伙伴可以添加 AI 前线编辑微信:caifangfang842852,备注“北大听课 + 公司名称 + 职位 or 学校 + 专业”,通过后可进入课程活动群,第一时间获取直播链接、视频回放、课程内容整理、北大 AI 公开课系列课程信息,以及与其他小伙伴互动交流。

祝大家听课愉快~

学习资料

点击“阅读原文”,即可观看本期公开课视频。

在 AI 前线微信公众号(ID:ai-front)后台回复关键词“北大 AI 公开课”,可获取往期课程文字材料 + 视频回顾等学习资料。

阅读原文链接: http://www.xuetangx.com/livecast/live_cast_rengongzhineng2019/livecast-reading/983/

收藏

评论

微博

用户头像
发表评论

注册/登录 InfoQ 发表评论