GMTC北京站9折购票最后一周,2022年大前端方向又有哪些技术热点? 了解详情
写点什么

北大 AI 公开课 2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

  • 2019 年 4 月 27 日
  • 本文字数:7400 字

    阅读完需:约 24 分钟

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

本文由 InfoQ 独家整理首发,未经授权请勿转载


与 AlphaGo 大胜各路围棋高手时的盛况相比,如今的人工智能正在步入冷静期,越来越多人开始关注人工智能的落地场景是否刚需,以及它实际能够给行业带来多少价值。当前人工智能技术到底达到什么样的水平了?它在不同行业的落地情况又如何?未来 AI 会给各行各业带来什么变化?4 月 24 日,北大 AI 公开课第十讲如期开讲,科大讯飞 AI 研究院常务副院长刘聪在演讲中与大家分享了讯飞过去 20 年做人工智能积累的经验和趟过的坑,一览人工智能发展现状。

北京大学最受欢迎的 AI 公开课“人工智能前沿与产业趋势”于 2019 年 2 月 20 日正式开课。本学期的课程邀请到了商汤科技副总裁沈徽、驭势科技 CEO 吴甘沙、微软亚洲研究院副院长周明、360 人工智能研究院院长颜水成、YC 中国创始人及 CEO、百度集团副董事长陆奇等 14 位来自产业界的大咖进行授课,AI 前线作为独家合作媒体将全程跟进并对北大这 14 场公开课进行整理,敬请关注!



课程导师:雷鸣,天使投资人,百度创始七剑客之一,酷我音乐创始人,北大信科人工智能创新中心主任,2000 年获得北京大学计算机硕士学位,2005 年获得斯坦福商学院 MBA 学位。



特邀讲者:刘聪,科大讯飞 AI 研究院常务副院长。长期从事语音识别和人工智能等相关领域的研究。2010 年起任科大讯飞研究院研究主管,在 2010 年 10 月科大讯飞推出“讯飞语音云”前后,全面负责讯飞语音云中语音识别核心效果的优化,并持续将深度神经网络等国际最新研究引入讯飞语音云系统中。2014 年底开始,全面负责科大讯飞图文识别、医学影像、视频分析等方向的研究,带领团队在多项计算机视觉国际评测中获得佳绩,相关研究成果在多个内部产品中成功应用。获得 2018 年度 MIT TR35 China“先锋者”和中国计算机学会(CCF)杰出工程师称号。


北大 AI 公开课第九讲回顾:《好未来杨松帆:为人工智能时代打造AI老师》


以下 AI 前线独家整理的刘聪老师课程内容(略有删减)。


今天分享的题目是《人工智能的“顶天立地”之路》,其中“顶天”指的是核心技术要做到领先位置,“立地”指的是技术不只是发论文或纯学术研究,而是要真正能够赋能各个场景或改变不同的行业并发挥价值,这两点也是科大讯飞在成立 20 年间一直强调的。


如今回顾过去几十年人工智能的发展历程,“顶天立地”这个词同样适用。人工智能的整个发展历程其实就是不断追求技术高度、挑战技术极限,同时也在持续追求这些技术到底能不能发挥价值。因此今天我想从讯飞过去 20 年积累的经验和趟过的坑切入,就讯飞在“顶天立地”的追求和方法论的积累跟大家做一些分享。


整个演讲会从“五个 W”问题来展开,不管是学术界还是产业界,都需要把这 5 个问题搞清楚。首先是 What,人工智能到底是什么以及它的整个发展历程;第二个是 Where,到底现在人工智能的技术在各个场景上达到了一个什么样的水平;第三个是 How,人工智能如何实现的,以及实现以后获得了哪些成功;第四个是 When,到底人工智能什么时候才能走进我们的生活并产生落地的价值;最后会聊聊,在人工智能的浪潮当中,我们每个人、每个公司所处的位置,未来我们找工作,甚至我们的孩子未来报什么专业有没有一些导向。


What:人工智能是什么

关于人工智能定义非常多,我比较认可的是 2018 年一份人工智能白皮书上提到的定义:人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。



上面这张图可以结合 Gartner 提出的技术成熟度曲线来看。当一个新技术刚刚提出来的时候,往往会引起大家的高度关注,尤其是媒体,于是技术曲线就会往上冲得非常高,但正常来讲,技术的发展有自己的规律,达到一定高度后可能会发现这项技术满足不了用户的需求。于是随着大家认知跌落之后它又会回到谷底,有的技术可能回到谷底之后就能再也起不来了,有的时候随着用户预期跟技术能力慢慢互相适应之后,这项技术又会渐渐从底部走出来。


人工智能从 1956 年在达特茅斯会议上提出到现在,已经经历了三次浪潮,每一次其实都跟 Gartner 曲线有很大的关联。我们现在所处的阶段,看起来好像又快到一个新的二十年了,但从目前来看,这次比以前的状态好一些。围绕刚才说的这个曲线,我们也发现了一些很有意思的地方:其实每一次的曲线中,期望都是大众推高的。当某一个人工智能技术成熟之后,大家可能就不当它看作人工智能了。比如车牌识别、人脸识别、拼音输入、手写识别等等,以前刚刚出来的时候,大家会觉得非常新鲜,但到现在如果没有这个功能或者出了一个错误,大家就会觉得很奇怪。其实从某种程度上来说,也是大众的这样一种认知在不断推动着人工智能往前进步。


Where:人工智能现状如何

根据技术实现的难度,我们一般会把人工智能划分成几个阶段:第一个阶段,能存会算的运算智能;第二个阶段,是能听会说、能看会认的感知智能和能抓会握、能走会跑的运动智能;第三个阶段,是能理解会思考的认知智能。


运算智能

首先看一下运算智能,虽然 AlphaGo 已经解决了围棋问题,看上去非常强大,但本质上围棋问题仍然是一个空间有限的任务。只要是有限任务,从理论上来讲,都是可以堆运算力去解决的。所以人工智能下围棋这个问题本来就是能解决的,而 AlphaGo 之所以轰动,是因为它通过一些巧妙的方法把这个问题解决的时间提前了 20 年,让我们能够在现有的运算能力下干这件事。


机器的运算智能虽然也有一些学习规则,但是跟人的思维方式是不一样的,在这种场景之下,机器是有一些天生优势的。除了象棋围棋,还有像最强大脑、记数字等类似的问题上,当前的机器水平已经远远超过人类了,这就是运算智能当前的状态。机器学习的速度,跟人类学习的速度至少是一个数量级的差别。人工智能的魅力就在于它的持续向前进化能力和无成本复制能力,这是人类自身无法比拟的。


感知智能和运动智能

感知智能指的就是机器能听会说、能看会认的能力。从感知的角度来说,机器进步很快,与人类越来越接近。



以上图的语音识别为例,纵轴是语音识别的错误率,越低越好,横轴是时间。在评估语音识别效果的时候需要先限定场景,才有意义。在八九十年代的时候,朗读形式的语音识别已经做得很好了,准确率能够达到 95%左右。但是在深度学习出现之前,如红色折线标记的对话式语音识别错误率一直在 20%左右,很难做好。有了深度学习之后,识别错误率开始显著下降,在 2017 年左右已经可以做到 5%左右,我们可以把这看作和人的水平是相当的。在图像识别领域也是类似的,像 ImageNet 这种大型图像识别任务每年错误率的下降速度也非常厉害。每一年的算法提升,可能相当于过去 10 年累计在一起的算法的提升,这也反映了感知智能的水平确实在快速提升。


再看运动智能,人类通过视觉直接判断位置并控制肌肉完成动作,而机器则是通过摄像头判断位置并计算出位置和力度。目前机器在运动智能这块跟人的水平还是有差距的,但机器人也有它自己的一些特点,比如它可能会利用超声波或红外等能力来增强自己在这方面的能力。


认知智能

语言是人类智慧的重要载体和基础,没有语言人类不能组成大量团队,没有语言人类没办法维持社会结构,没有语言就不能产生虚构的概念。语言的广泛使用,是产生“认知革命”的起因。从人工智能研究的层面来讲,自然语言理解难度也非常大,因此被称为“人工智能皇冠上的明珠”。但实际上,人类智慧是基于多模态的,不是纯粹的语言符号就能闭环自洽的,语言知识人类智慧的载体和表层。虽然我们现在也有基于多模态的研究,但还有很长的路要走。



认知智能是人工智能目前最大的挑战,特别在知识表达、逻辑推理等方面。


How:人工智能如何实现

人工智能技术流派可以分为强人工智能和弱人工智能两类。其中强人工智能指的就是能够真正像人类一样思考,不需要基于很多样本做训练,这目前还属于前瞻和基础研究状态,主要以脑科学研究为主。而弱人工智能则是让机器表现得“像”有智能,但其中实现的过程和人脑真正的机理差别是非常大的,更多还是在大数据+深度学习的支撑下带来突破,这也是当前人工智能的主流技术路线。


人工智能有三种实现路径,第一个是深度学习。我们曾经把算法、算力、大数据叫做人工智能的三大法宝。只要有足够多的、有监督的、海量训练数据样本,深度神经网络就可以达到可媲美人类的智能水平。以我们目前使用最多的深度神经网络 DNN 为例,它可能会使用 10^11 个训练样本,需要 10^7 个参数,而这些参数可能在 GPU 阵列的支持下经过 10^9 次迭代更新,最终使整个神经网络达到人类可比的智能水平。


第二个实现路径是全脑模拟,包括我们知道的美国前总统奥巴马提出的“大脑活动图谱计划”、欧盟的“人类大脑项目”、中国正在酝酿启动的“中国脑计划”等走的就是这条路线。其原理就是利用超算模拟大脑的活动方式,将大脑的活动保存下来,就像“电子永生”一样。当然这对存储或者运算的要求可能比我们现在最强的计算机,还要高出几个数量级。现在我们还做不到这一点,而且即使未来能做到这一点,其实它也不具备推广能力,因为背后要求的运算支撑实在是太多了。这个实现路径目前属于非常前瞻的局部研究。


第三个实现路径是智能动力学,就像钱学森的导师冯卡门专攻空气动力学最终造出飞机一样,是否能将人类的学习机制等提炼出来,跟我们现有的模型结合。这条路现在我们也在努力,但其实也还有很长的路要走。


现在人工智能的研究还是以第一种实现路径为主流,整体来讲,感知智能中的语音和图像进步比较快,因为拥有更多数据;而认知智能,比如自然语言理解,在机器翻译这块做得还不错,但其他的问题如交互、行业专家知识等,并没有本质突破。


When:人工智能何时落地

最近几年,大家对人工智能的期望变化越来越快。2016 年的时候更多在提的是三大法宝:算法、算力、大数据;到 2017 年的时候说,得找落地场景,别光做 PPT;到 2018 年,还得找价值,别光找场景,如果这个场景不是刚需也没有用;到现在 2019 年,关键词已经变成了价值兑现,得赚钱。这也可以看出大家对人工智能的期望,以及人工智能技术的迭代速度都在不断提高。



但实际上,在学校做科研和真正在公司里面做人工智能的产品不同,后者的链条非常长。


基于讯飞在实际产品落地过程中的分析,我们认为人工智能在以下几种场景相对人类更有优势:



基于人工智能现有的优势,企业在人工智能落地方向上可以做出更好的选择。



对于人工智能的落地,基于技术成熟度评估的台阶设计至关重要。



以讯飞为例。讯飞成立于 1999 年,一开始只做语音合成;2002 年的时候,我们想做语音识别,但发现识别很难,所以我们退而求其次,做了语音评测(比如普通话识别,由机器代替老师自动打分),跟识别框架类似,但难度会降低;2005 年,我们开始做语音识别,刚开始我们想做难度更大的语音转写,但是当时技术还不够成熟,因此我们先做的是语音输入法,因为输入法是需要人配合的,输入的时候需要用户想一下再输入,而普通的说话是随机的而且比较复杂;再到 2011 年开始做语音交互,到 2014 年,在语音交互有了一些基础之后,我们开始在教育、政法、医疗等很多行业进行赋能。其中很多研究都是跟高校共同合作孵化出来的。


除了算法以外,数据和运算能力也是设计台阶的重要依据。


目前人工智能在落地主要分为两大类,第一,人工智能会通过机器与人的自然交互改变人类生活,另一方面,智能学习会颠覆很多需要专业人士的行业,如医疗、教育等领域。


计算机每发展十年,与人的交互会发生变化。键盘和字符形成第一代人机交互,鼠标和图形显示则构成第二代人机交互,而第三代人机交互则是以语音交互为主、触摸交互为辅的方式。


在行业方面,各行各业最稀缺的是专家,而人工智能要学习专家能力,并用机器学习替代专家。因此人工智能应用到各行各业可以改变各个行业的思维方式。目前讯飞在教育、医疗、政法等多个行业都有人工智能的落地应用。





Who:谁将弄潮人工智能

未来的商业模式到底会是怎么样的,这决定了我们,不管是个人还是企业,在这个过程当中所处的位置。因此我们需要从商业模式的层面对未来做一些预测,只有提前预测这,才能知道未来可能会发生哪些变化。



交互方式,将会从图形界面到触摸界面再到基于视觉呈现的交互;单纯的软硬件模式将会转变为软硬一体的“云+端”模式;移动互联网时代,更多出现的是巨头,比如 BAT、TMD 和所谓的超级 APP,但在未来,我们认为会变得更加多样化,包括传统行业,像银行、运营商、地产商、家电厂商,也都会一起参与进来;面向最终用户的产品,会从“大 C”产品,比如手机、汽车这种形态比较固定的大件产品,转变为一些更能体现出用户个性化需求的“小 C”产品,比如智能硬件、机器人等等;另外中国特色也会推动一些应用场景在中国的快速发展,比如视频监控。



互联网时代,企业通过网站提供服务,用搜索引擎来触达用户;而移动互联网时代最大的变化是智能手机的流行,AIOT 时代,我们会看到更多样化的硬件。未来冰箱、电视都可能会成为接口,每一个服务提供商都要建立自己的人工智能系统,通过这样的系统去更好地触达和服务用户。而分发渠道可能是结合 UI 和前端的硬件提供的一整套 AI 系统,包括讯飞、DuerOS 都在做这样的事情。通过软硬一体化的整体解决方案,既可以为开发者提供一站式的解决方案和技能平台,又能为消费者提供体验一致的场景化需求。


未来人工智能将无处不在,每个领域、每个行业,乃至每个企业都将有自己的人工智能平台,专注解决各自不同的人工智能问题,开发不同的产品和服务。彼此正交的不同公司需要建立紧密的合作,在新的生态下知识、经验、数据、利益的分享将变得更加重要,通过混合的方式建立新生态下的共赢合作是成功的关键。


小结

首先,我觉得知易行难。虽然我今天跟大家分享了讯飞的一些经验,或者说我们以前趟过的坑,但是可能在座的各位以后进入这个行业,不管是学术界、产业界或者创业,有些坑还是得自己趟,避不开。只有你自己去趟了,可能才会有更深的体会。但从另外一个角度讲,其实我们都很幸运能够出在现在这样一个时代。现在我们所能看到的人工智能未来的发展,其中积极性的因素和发展的空间,是比我们看到的风险或者泡沫更大的。所以,我相信大家处在这样一个行业,只要能找准自己的定位,想好自己想做的事情,未来机会非常大。我也非常期待,在这个人工智能还在持续发展的时代,我们可以在中国跟大家一起去建设更加美好的世界,谢谢大家。


Q&A

Q1:这个问题来自一名大一学生,他想了解现在 AI 人才的情况,如果现在开始学 AI 是不是太晚了?


刘聪:如果你是想对 AI 有更多的了解,这是一件好事。本质上更应该找到它背后最基础的东西,不管是 AI 还是机器人,还是其他的东西。举个例子,如果未来要做 AI 或者 AI 以后换个名字,它背后最基础的能力在哪里?可能是数学,可能是计算机,可能是数据分析的能力,或者我们刚才提到的统计学相关的知识。如果从选择方向来说,并不是说计算机系就不能学 AI,逻辑并不是这样的,包括讯飞招的很多人,其实并没有 AI 的背景,但他们可能有很好的编程的功底。所以这个问题的答案是说,只要跟这个相关的,或者这项能力本身,你认为在未来它是不会被淘汰的,就可以去学,其他的都不是最关键的,也不存在学的晚的问题。


Q2:现在这个 AI 的研发团队一般都是由博士生组成,这个硕士生他们感觉到这个发展的空间,或者地位比较尴尬,然后他们想问问您,硕士生应该如何规划自己的职业生涯?


刘聪:不同的公司对这个事情的看法可能不一样。至少从讯飞来讲,博士生的比例并没有那么高。其实还是本质的问题,到底读一个博士和读一个硕士,区别是什么?我们招生一般会有两种情况,如果是博士,换专业可能性就会比较小,因为博士已经在这个领域做的比较深了,反而是硕士,讯飞研究院招了不少原来专业跟 AI 没有任何关系的硕士生,比如通信、计算机,甚至学数学的都有。从我或者从讯飞的观点来看,对于硕士生,如果你的数学基础、编程能力等这些基础能力足够强,我们不会特别关心你到底有没有 AI 背景或者相关经历,这些都是可以后期培养的,所以我觉得不用太担心。


Q3:能否预测一下能够替代 80%以上人类工作的人工智能大概会在哪一年出现?现在从事哪方面的研究,能够推动 AI 取代人类?以及这个突破点大概会出现在什么地方?


刘聪:这个问题本质上都是围绕取代人类,一方面担心被人类取代,另一方面心里面又有些小窃喜,我得做个什么东西更快地把人类取代。其实取代人类这件事,需要分开来看。首先,取代人的目的是什么?就像前面提到的,有些重复性劳动是可以用机器取代人类的。比如教师,很多人认为教师一定是不可取代的,但仔细分析就会发现,其实我们并不是要取代教师这个职业,而是要取代教师的某些工作内容。教师其实除了教学,还需要进行一些感情上的关怀,但现在的老师的工作已经完全被改卷子、出题目占满了,哪有时间去做对学生精神上的引导。回到刚才的问题,预测多少年会取代是咨询机构喜欢干的事,我个人觉得更多的还是阶梯式,可能是一个逐步演进的过程。更关键的问题是我们得分析,到底哪些属于重复性劳动,比如速记员、送快递等,这些重复性的工作未来肯定会部分取代。但是刚才说的一些需要人关怀能力的工作,包括教师、医生,这些都是不可能取代的,只是可以将他们解放出来,让他们去做更具有创造力的事,这是第一点。


第二点是说有哪些关键技术可以推动 AI 更快地胜任人类的一些工作。主要有两个方面,一方面是小样本学习、无监督学习这类可以更好地扩展到不同领域的技术;另一方面是人机耦合、人机协同这样的技术,随着技术的发展,即使在现有的框架之下,也可以逐步降低整个过程中人占的比例。


下期预告

5 月 8 日 周三晚 18:40,北京大学“人工智能前沿与产业趋势”第十一讲,将由百度金融技术负责人许冬亮为大家授课。


感兴趣的小伙伴可以添加 AI 前线编辑微信:caifangfang842852,备注“北大听课+公司名称+职位 or 学校+专业”,通过后可进入课程活动群,第一时间获取直播链接、视频回放、课程内容整理、北大 AI 公开课系列课程信息,以及与其他小伙伴互动交流。


祝大家听课愉快~


学习资料

点击“阅读原文”,即可观看本期公开课视频。


在 AI 前线微信公众号(ID:ai-front)后台回复关键词“北大 AI 公开课”,可获取往期课程文字材料+视频回顾等学习资料。


阅读原文链接:http://www.xuetangx.com/livecast/live_cast_rengongzhineng2019/livecast-reading/983/


2019 年 4 月 27 日 14:005874

评论

发布
暂无评论
发现更多内容

今天面了个腾讯拿38K出来的大佬,让我见识到了基础的天花板

收到请回复

Java 程序员 后端

rfc2988:Computing TCP's Retransmission Timer

Changing Lin

11月日更

统一开发平台通用管理端工程

中原银行

中原银行 管理端

电脑数据恢复用哪款软件比较好

淋雨

EasyRecovery

绝绝子!美团大牛吐血整理总结“消息队列核心知识笔记”是真的吊

编程 程序员 MQ 队列

HTTP与HTTPS,HTTPS更加安全。

喀拉峻

网络安全 安全 信息安全 HTTP

Apache Pulsar 在能源互联网领域的落地实践

Apache Pulsar

架构 云原生 Apache Pulsar 消息系统 用户案例 能源互联网

第三阶段总结

张靖

#架构实战营

《大教堂与集市》

石云升

读书笔记 开源 11月日更

Java 设计模式 Monads 的美丽世界

信码由缰

Java 设计模式 Monads

ShowMeBug 黑科技丨一招快速实现架构绘图之鼠标同步

ShowMeBug

思维导图 实时同步 绘图库

吐血整理:常用的大数据采集工具,你不可不知

小术晓术

大数据 数据采集

腾讯云数据库TDSQL首次登上财报!TDSQL在不同金融机构核心系统中的渗透率明显提升

科技热闻

gitlab-runner构建解决java缓存问题

ilinux

Aeron是如何实现的?—— Conductor

BUG侦探

Aeron Conductor

腾讯安全推出御界NDR「横移检测版」,全面检测域渗透攻击

腾讯安全

FlyFish 1.0发布,新增4个可视化组件

云智慧AIOps社区

大前端 低代码 数据可视化

今日谈:数字信号常用编码、香农公式、信道复用技术

Regan Yue

计算机网络 网络工程师 11月日更

❤️这应该是Postman最详细的中文使用教程了❤️(新手使用,简单明了)

六十七点五

软件测试 性能测试 Postman 自动化测试 接口测试

安全漏洞之经典上传漏洞

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

腾讯Q3财报:腾讯企点服务超100万家企业,显著降低客服成本

科技热闻

如何在 MySQL / MariaDB 中导入导出数据,导入导出数据库文件、Excel、CSV

蒋川

MySQL 数据库 MariaDB 卡拉云

速看!从源码到实战,腾讯大牛纯手码48W字SpringCloud实战笔记

Java 编程 程序员 面试 SpringCloud

阿里内部疯传的分布式架构手册,轻松吊打小日子过的不错的面试官

编程 程序员 架构 分布式

大数据毕业作业

Clarke

腾讯云开源百万级服务发现和治理中心“北极星”,打造可持续微服务生态

科技热闻

ShowMeBug 中如何科学的识别用户浏览器?

ShowMeBug

大前端 浏览器 WebRTC

无锡农商行王宗:敏态转型,实现科技引领业务的华丽转身

BoCloud博云

微服务 云原生

第四范式OpenMLDB在金融风控数据库的计算优化实践

第四范式开发者社区

第四范式 开源技术 OpenMLDB datafun

“平”地而起,2022中国企业数智服务市场趋势洞察报告即将发布

海比研究院

WAVE SUMMIT 2022 深度学习开发者峰会

WAVE SUMMIT 2022 深度学习开发者峰会

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路_AI_刘聪_InfoQ精选文章