【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

北大 AI 公开课 2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

  • 2019-04-27
  • 本文字数:7400 字

    阅读完需:约 24 分钟

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路

本文由 InfoQ 独家整理首发,未经授权请勿转载


与 AlphaGo 大胜各路围棋高手时的盛况相比,如今的人工智能正在步入冷静期,越来越多人开始关注人工智能的落地场景是否刚需,以及它实际能够给行业带来多少价值。当前人工智能技术到底达到什么样的水平了?它在不同行业的落地情况又如何?未来 AI 会给各行各业带来什么变化?4 月 24 日,北大 AI 公开课第十讲如期开讲,科大讯飞 AI 研究院常务副院长刘聪在演讲中与大家分享了讯飞过去 20 年做人工智能积累的经验和趟过的坑,一览人工智能发展现状。

北京大学最受欢迎的 AI 公开课“人工智能前沿与产业趋势”于 2019 年 2 月 20 日正式开课。本学期的课程邀请到了商汤科技副总裁沈徽、驭势科技 CEO 吴甘沙、微软亚洲研究院副院长周明、360 人工智能研究院院长颜水成、YC 中国创始人及 CEO、百度集团副董事长陆奇等 14 位来自产业界的大咖进行授课,AI 前线作为独家合作媒体将全程跟进并对北大这 14 场公开课进行整理,敬请关注!



课程导师:雷鸣,天使投资人,百度创始七剑客之一,酷我音乐创始人,北大信科人工智能创新中心主任,2000 年获得北京大学计算机硕士学位,2005 年获得斯坦福商学院 MBA 学位。



特邀讲者:刘聪,科大讯飞 AI 研究院常务副院长。长期从事语音识别和人工智能等相关领域的研究。2010 年起任科大讯飞研究院研究主管,在 2010 年 10 月科大讯飞推出“讯飞语音云”前后,全面负责讯飞语音云中语音识别核心效果的优化,并持续将深度神经网络等国际最新研究引入讯飞语音云系统中。2014 年底开始,全面负责科大讯飞图文识别、医学影像、视频分析等方向的研究,带领团队在多项计算机视觉国际评测中获得佳绩,相关研究成果在多个内部产品中成功应用。获得 2018 年度 MIT TR35 China“先锋者”和中国计算机学会(CCF)杰出工程师称号。


北大 AI 公开课第九讲回顾:《好未来杨松帆:为人工智能时代打造AI老师》


以下 AI 前线独家整理的刘聪老师课程内容(略有删减)。


今天分享的题目是《人工智能的“顶天立地”之路》,其中“顶天”指的是核心技术要做到领先位置,“立地”指的是技术不只是发论文或纯学术研究,而是要真正能够赋能各个场景或改变不同的行业并发挥价值,这两点也是科大讯飞在成立 20 年间一直强调的。


如今回顾过去几十年人工智能的发展历程,“顶天立地”这个词同样适用。人工智能的整个发展历程其实就是不断追求技术高度、挑战技术极限,同时也在持续追求这些技术到底能不能发挥价值。因此今天我想从讯飞过去 20 年积累的经验和趟过的坑切入,就讯飞在“顶天立地”的追求和方法论的积累跟大家做一些分享。


整个演讲会从“五个 W”问题来展开,不管是学术界还是产业界,都需要把这 5 个问题搞清楚。首先是 What,人工智能到底是什么以及它的整个发展历程;第二个是 Where,到底现在人工智能的技术在各个场景上达到了一个什么样的水平;第三个是 How,人工智能如何实现的,以及实现以后获得了哪些成功;第四个是 When,到底人工智能什么时候才能走进我们的生活并产生落地的价值;最后会聊聊,在人工智能的浪潮当中,我们每个人、每个公司所处的位置,未来我们找工作,甚至我们的孩子未来报什么专业有没有一些导向。

What:人工智能是什么

关于人工智能定义非常多,我比较认可的是 2018 年一份人工智能白皮书上提到的定义:人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。



上面这张图可以结合 Gartner 提出的技术成熟度曲线来看。当一个新技术刚刚提出来的时候,往往会引起大家的高度关注,尤其是媒体,于是技术曲线就会往上冲得非常高,但正常来讲,技术的发展有自己的规律,达到一定高度后可能会发现这项技术满足不了用户的需求。于是随着大家认知跌落之后它又会回到谷底,有的技术可能回到谷底之后就能再也起不来了,有的时候随着用户预期跟技术能力慢慢互相适应之后,这项技术又会渐渐从底部走出来。


人工智能从 1956 年在达特茅斯会议上提出到现在,已经经历了三次浪潮,每一次其实都跟 Gartner 曲线有很大的关联。我们现在所处的阶段,看起来好像又快到一个新的二十年了,但从目前来看,这次比以前的状态好一些。围绕刚才说的这个曲线,我们也发现了一些很有意思的地方:其实每一次的曲线中,期望都是大众推高的。当某一个人工智能技术成熟之后,大家可能就不当它看作人工智能了。比如车牌识别、人脸识别、拼音输入、手写识别等等,以前刚刚出来的时候,大家会觉得非常新鲜,但到现在如果没有这个功能或者出了一个错误,大家就会觉得很奇怪。其实从某种程度上来说,也是大众的这样一种认知在不断推动着人工智能往前进步。

Where:人工智能现状如何

根据技术实现的难度,我们一般会把人工智能划分成几个阶段:第一个阶段,能存会算的运算智能;第二个阶段,是能听会说、能看会认的感知智能和能抓会握、能走会跑的运动智能;第三个阶段,是能理解会思考的认知智能。

运算智能

首先看一下运算智能,虽然 AlphaGo 已经解决了围棋问题,看上去非常强大,但本质上围棋问题仍然是一个空间有限的任务。只要是有限任务,从理论上来讲,都是可以堆运算力去解决的。所以人工智能下围棋这个问题本来就是能解决的,而 AlphaGo 之所以轰动,是因为它通过一些巧妙的方法把这个问题解决的时间提前了 20 年,让我们能够在现有的运算能力下干这件事。


机器的运算智能虽然也有一些学习规则,但是跟人的思维方式是不一样的,在这种场景之下,机器是有一些天生优势的。除了象棋围棋,还有像最强大脑、记数字等类似的问题上,当前的机器水平已经远远超过人类了,这就是运算智能当前的状态。机器学习的速度,跟人类学习的速度至少是一个数量级的差别。人工智能的魅力就在于它的持续向前进化能力和无成本复制能力,这是人类自身无法比拟的。

感知智能和运动智能

感知智能指的就是机器能听会说、能看会认的能力。从感知的角度来说,机器进步很快,与人类越来越接近。



以上图的语音识别为例,纵轴是语音识别的错误率,越低越好,横轴是时间。在评估语音识别效果的时候需要先限定场景,才有意义。在八九十年代的时候,朗读形式的语音识别已经做得很好了,准确率能够达到 95%左右。但是在深度学习出现之前,如红色折线标记的对话式语音识别错误率一直在 20%左右,很难做好。有了深度学习之后,识别错误率开始显著下降,在 2017 年左右已经可以做到 5%左右,我们可以把这看作和人的水平是相当的。在图像识别领域也是类似的,像 ImageNet 这种大型图像识别任务每年错误率的下降速度也非常厉害。每一年的算法提升,可能相当于过去 10 年累计在一起的算法的提升,这也反映了感知智能的水平确实在快速提升。


再看运动智能,人类通过视觉直接判断位置并控制肌肉完成动作,而机器则是通过摄像头判断位置并计算出位置和力度。目前机器在运动智能这块跟人的水平还是有差距的,但机器人也有它自己的一些特点,比如它可能会利用超声波或红外等能力来增强自己在这方面的能力。

认知智能

语言是人类智慧的重要载体和基础,没有语言人类不能组成大量团队,没有语言人类没办法维持社会结构,没有语言就不能产生虚构的概念。语言的广泛使用,是产生“认知革命”的起因。从人工智能研究的层面来讲,自然语言理解难度也非常大,因此被称为“人工智能皇冠上的明珠”。但实际上,人类智慧是基于多模态的,不是纯粹的语言符号就能闭环自洽的,语言知识人类智慧的载体和表层。虽然我们现在也有基于多模态的研究,但还有很长的路要走。



认知智能是人工智能目前最大的挑战,特别在知识表达、逻辑推理等方面。

How:人工智能如何实现

人工智能技术流派可以分为强人工智能和弱人工智能两类。其中强人工智能指的就是能够真正像人类一样思考,不需要基于很多样本做训练,这目前还属于前瞻和基础研究状态,主要以脑科学研究为主。而弱人工智能则是让机器表现得“像”有智能,但其中实现的过程和人脑真正的机理差别是非常大的,更多还是在大数据+深度学习的支撑下带来突破,这也是当前人工智能的主流技术路线。


人工智能有三种实现路径,第一个是深度学习。我们曾经把算法、算力、大数据叫做人工智能的三大法宝。只要有足够多的、有监督的、海量训练数据样本,深度神经网络就可以达到可媲美人类的智能水平。以我们目前使用最多的深度神经网络 DNN 为例,它可能会使用 10^11 个训练样本,需要 10^7 个参数,而这些参数可能在 GPU 阵列的支持下经过 10^9 次迭代更新,最终使整个神经网络达到人类可比的智能水平。


第二个实现路径是全脑模拟,包括我们知道的美国前总统奥巴马提出的“大脑活动图谱计划”、欧盟的“人类大脑项目”、中国正在酝酿启动的“中国脑计划”等走的就是这条路线。其原理就是利用超算模拟大脑的活动方式,将大脑的活动保存下来,就像“电子永生”一样。当然这对存储或者运算的要求可能比我们现在最强的计算机,还要高出几个数量级。现在我们还做不到这一点,而且即使未来能做到这一点,其实它也不具备推广能力,因为背后要求的运算支撑实在是太多了。这个实现路径目前属于非常前瞻的局部研究。


第三个实现路径是智能动力学,就像钱学森的导师冯卡门专攻空气动力学最终造出飞机一样,是否能将人类的学习机制等提炼出来,跟我们现有的模型结合。这条路现在我们也在努力,但其实也还有很长的路要走。


现在人工智能的研究还是以第一种实现路径为主流,整体来讲,感知智能中的语音和图像进步比较快,因为拥有更多数据;而认知智能,比如自然语言理解,在机器翻译这块做得还不错,但其他的问题如交互、行业专家知识等,并没有本质突破。

When:人工智能何时落地

最近几年,大家对人工智能的期望变化越来越快。2016 年的时候更多在提的是三大法宝:算法、算力、大数据;到 2017 年的时候说,得找落地场景,别光做 PPT;到 2018 年,还得找价值,别光找场景,如果这个场景不是刚需也没有用;到现在 2019 年,关键词已经变成了价值兑现,得赚钱。这也可以看出大家对人工智能的期望,以及人工智能技术的迭代速度都在不断提高。



但实际上,在学校做科研和真正在公司里面做人工智能的产品不同,后者的链条非常长。


基于讯飞在实际产品落地过程中的分析,我们认为人工智能在以下几种场景相对人类更有优势:



基于人工智能现有的优势,企业在人工智能落地方向上可以做出更好的选择。



对于人工智能的落地,基于技术成熟度评估的台阶设计至关重要。



以讯飞为例。讯飞成立于 1999 年,一开始只做语音合成;2002 年的时候,我们想做语音识别,但发现识别很难,所以我们退而求其次,做了语音评测(比如普通话识别,由机器代替老师自动打分),跟识别框架类似,但难度会降低;2005 年,我们开始做语音识别,刚开始我们想做难度更大的语音转写,但是当时技术还不够成熟,因此我们先做的是语音输入法,因为输入法是需要人配合的,输入的时候需要用户想一下再输入,而普通的说话是随机的而且比较复杂;再到 2011 年开始做语音交互,到 2014 年,在语音交互有了一些基础之后,我们开始在教育、政法、医疗等很多行业进行赋能。其中很多研究都是跟高校共同合作孵化出来的。


除了算法以外,数据和运算能力也是设计台阶的重要依据。


目前人工智能在落地主要分为两大类,第一,人工智能会通过机器与人的自然交互改变人类生活,另一方面,智能学习会颠覆很多需要专业人士的行业,如医疗、教育等领域。


计算机每发展十年,与人的交互会发生变化。键盘和字符形成第一代人机交互,鼠标和图形显示则构成第二代人机交互,而第三代人机交互则是以语音交互为主、触摸交互为辅的方式。


在行业方面,各行各业最稀缺的是专家,而人工智能要学习专家能力,并用机器学习替代专家。因此人工智能应用到各行各业可以改变各个行业的思维方式。目前讯飞在教育、医疗、政法等多个行业都有人工智能的落地应用。




Who:谁将弄潮人工智能

未来的商业模式到底会是怎么样的,这决定了我们,不管是个人还是企业,在这个过程当中所处的位置。因此我们需要从商业模式的层面对未来做一些预测,只有提前预测这,才能知道未来可能会发生哪些变化。



交互方式,将会从图形界面到触摸界面再到基于视觉呈现的交互;单纯的软硬件模式将会转变为软硬一体的“云+端”模式;移动互联网时代,更多出现的是巨头,比如 BAT、TMD 和所谓的超级 APP,但在未来,我们认为会变得更加多样化,包括传统行业,像银行、运营商、地产商、家电厂商,也都会一起参与进来;面向最终用户的产品,会从“大 C”产品,比如手机、汽车这种形态比较固定的大件产品,转变为一些更能体现出用户个性化需求的“小 C”产品,比如智能硬件、机器人等等;另外中国特色也会推动一些应用场景在中国的快速发展,比如视频监控。



互联网时代,企业通过网站提供服务,用搜索引擎来触达用户;而移动互联网时代最大的变化是智能手机的流行,AIOT 时代,我们会看到更多样化的硬件。未来冰箱、电视都可能会成为接口,每一个服务提供商都要建立自己的人工智能系统,通过这样的系统去更好地触达和服务用户。而分发渠道可能是结合 UI 和前端的硬件提供的一整套 AI 系统,包括讯飞、DuerOS 都在做这样的事情。通过软硬一体化的整体解决方案,既可以为开发者提供一站式的解决方案和技能平台,又能为消费者提供体验一致的场景化需求。


未来人工智能将无处不在,每个领域、每个行业,乃至每个企业都将有自己的人工智能平台,专注解决各自不同的人工智能问题,开发不同的产品和服务。彼此正交的不同公司需要建立紧密的合作,在新的生态下知识、经验、数据、利益的分享将变得更加重要,通过混合的方式建立新生态下的共赢合作是成功的关键。

小结

首先,我觉得知易行难。虽然我今天跟大家分享了讯飞的一些经验,或者说我们以前趟过的坑,但是可能在座的各位以后进入这个行业,不管是学术界、产业界或者创业,有些坑还是得自己趟,避不开。只有你自己去趟了,可能才会有更深的体会。但从另外一个角度讲,其实我们都很幸运能够出在现在这样一个时代。现在我们所能看到的人工智能未来的发展,其中积极性的因素和发展的空间,是比我们看到的风险或者泡沫更大的。所以,我相信大家处在这样一个行业,只要能找准自己的定位,想好自己想做的事情,未来机会非常大。我也非常期待,在这个人工智能还在持续发展的时代,我们可以在中国跟大家一起去建设更加美好的世界,谢谢大家。

Q&A

Q1:这个问题来自一名大一学生,他想了解现在 AI 人才的情况,如果现在开始学 AI 是不是太晚了?


刘聪:如果你是想对 AI 有更多的了解,这是一件好事。本质上更应该找到它背后最基础的东西,不管是 AI 还是机器人,还是其他的东西。举个例子,如果未来要做 AI 或者 AI 以后换个名字,它背后最基础的能力在哪里?可能是数学,可能是计算机,可能是数据分析的能力,或者我们刚才提到的统计学相关的知识。如果从选择方向来说,并不是说计算机系就不能学 AI,逻辑并不是这样的,包括讯飞招的很多人,其实并没有 AI 的背景,但他们可能有很好的编程的功底。所以这个问题的答案是说,只要跟这个相关的,或者这项能力本身,你认为在未来它是不会被淘汰的,就可以去学,其他的都不是最关键的,也不存在学的晚的问题。


Q2:现在这个 AI 的研发团队一般都是由博士生组成,这个硕士生他们感觉到这个发展的空间,或者地位比较尴尬,然后他们想问问您,硕士生应该如何规划自己的职业生涯?


刘聪:不同的公司对这个事情的看法可能不一样。至少从讯飞来讲,博士生的比例并没有那么高。其实还是本质的问题,到底读一个博士和读一个硕士,区别是什么?我们招生一般会有两种情况,如果是博士,换专业可能性就会比较小,因为博士已经在这个领域做的比较深了,反而是硕士,讯飞研究院招了不少原来专业跟 AI 没有任何关系的硕士生,比如通信、计算机,甚至学数学的都有。从我或者从讯飞的观点来看,对于硕士生,如果你的数学基础、编程能力等这些基础能力足够强,我们不会特别关心你到底有没有 AI 背景或者相关经历,这些都是可以后期培养的,所以我觉得不用太担心。


Q3:能否预测一下能够替代 80%以上人类工作的人工智能大概会在哪一年出现?现在从事哪方面的研究,能够推动 AI 取代人类?以及这个突破点大概会出现在什么地方?


刘聪:这个问题本质上都是围绕取代人类,一方面担心被人类取代,另一方面心里面又有些小窃喜,我得做个什么东西更快地把人类取代。其实取代人类这件事,需要分开来看。首先,取代人的目的是什么?就像前面提到的,有些重复性劳动是可以用机器取代人类的。比如教师,很多人认为教师一定是不可取代的,但仔细分析就会发现,其实我们并不是要取代教师这个职业,而是要取代教师的某些工作内容。教师其实除了教学,还需要进行一些感情上的关怀,但现在的老师的工作已经完全被改卷子、出题目占满了,哪有时间去做对学生精神上的引导。回到刚才的问题,预测多少年会取代是咨询机构喜欢干的事,我个人觉得更多的还是阶梯式,可能是一个逐步演进的过程。更关键的问题是我们得分析,到底哪些属于重复性劳动,比如速记员、送快递等,这些重复性的工作未来肯定会部分取代。但是刚才说的一些需要人关怀能力的工作,包括教师、医生,这些都是不可能取代的,只是可以将他们解放出来,让他们去做更具有创造力的事,这是第一点。


第二点是说有哪些关键技术可以推动 AI 更快地胜任人类的一些工作。主要有两个方面,一方面是小样本学习、无监督学习这类可以更好地扩展到不同领域的技术;另一方面是人机耦合、人机协同这样的技术,随着技术的发展,即使在现有的框架之下,也可以逐步降低整个过程中人占的比例。

下期预告

5 月 8 日 周三晚 18:40,北京大学“人工智能前沿与产业趋势”第十一讲,将由百度金融技术负责人许冬亮为大家授课。


感兴趣的小伙伴可以添加 AI 前线编辑微信:caifangfang842852,备注“北大听课+公司名称+职位 or 学校+专业”,通过后可进入课程活动群,第一时间获取直播链接、视频回放、课程内容整理、北大 AI 公开课系列课程信息,以及与其他小伙伴互动交流。


祝大家听课愉快~

学习资料

点击“阅读原文”,即可观看本期公开课视频。


在 AI 前线微信公众号(ID:ai-front)后台回复关键词“北大 AI 公开课”,可获取往期课程文字材料+视频回顾等学习资料。


阅读原文链接:http://www.xuetangx.com/livecast/live_cast_rengongzhineng2019/livecast-reading/983/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-04-27 14:006448

评论

发布
暂无评论
发现更多内容

全栈开发(TS,React,Vue, Java, 移动端flutter)接单

hz

已解决org.springframework.web.bind.MissingRequestHeaderException缺少请求头异常的正确解决方法,亲测有效!!!

小明Java问道之路

Mellel 6 for Mac(文字处理软件) v6.0.3中文激活版

iMac小白

10个技巧,3分钟教会你高效寻找开源项目

快乐非自愿限量之名

开源 项目开发

iShowU Instant for Mac(强大的实时屏幕录像工具)v1.4.19(1488)直装版

影影绰绰一往直前

adobe 系列应用出现Error无法继续安装,文件已损坏,无法打开解决方法

Rose

苹果电脑有哪些好用的修图软件?

Rose

修图 抠图 Mac软件 照片编辑

2024-03-02:用go语言,一个句子是由一些单词与它们之间的单个空格组成, 且句子的开头和结尾没有多余空格, 比方说,“Hello World“ ,“HELLO“ ,“hello world h

福大大架构师每日一题

福大大架构师每日一题

BRC-20铭文发行合约系统开发:深度思考与逻辑性

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

实时数据驱动:API商品数据接口的三重保证,助力您的业务飞跃

Noah

聊聊 HTTP 性能优化

EquatorCoco

性能优化 网络协议 HTTP

PullTube for Mac(在线视频下载器) v1.8.5.27中文激活版

iMac小白

Eudic欧路词典 for Mac(英语词典翻译查询工具)v4.6.2激活版

影影绰绰一往直前

iShowU Studio for mac(强大的屏幕录像编辑工具)v2.3.14(1508)激活版

影影绰绰一往直前

System Toolkit for Mac(mac系统维护软件)v6.1.0中文激活版

影影绰绰一往直前

FastScripts for Mac(脚本调用工具) v3.3.1激活版

iMac小白

苹果电脑新手教程:如何开启任何来源选项

Rose

mac电脑 苹果电脑 任何来源

Photomator for mac(照片编辑器) v3.3.2中文版

iMac小白

AI会夺走程序员的饭碗吗?

算AI

#人工智能

不会使用ps怎么办?适用于苹果Mac的最佳Photoshop替代品

Rose

万字带你走过数据库的这激荡的三年

不在线第一只蜗牛

数据库 开发 数据集

Disk Drill for Mac(数据恢复软件)v5.4.1426中文激活版

iMac小白

TunesKit Screen Recorder for mac(录屏软件)v2.6.0直装版

影影绰绰一往直前

Topaz Photo AI for Mac(人工智能降噪软件)v2.4.0激活版

影影绰绰一往直前

什么是 web 应用的 type-ahead search help

秃头小帅oi

Serial Box for Mac(软件序列号查询软件)v2024.03激活版

影影绰绰一往直前

ProPresenter for Mac(现场分屏演示工具) v7.16.1汉化版

iMac小白

AnyMP4 iPhone Unlocker mac中文激活版 专业iPhone解锁工具

iMac小白

2024年2月文章一览

codists

阅读 编程人 codists 2024年2月

安装mac软件时提示已损坏,无法打开,应该移到废纸篓的解决办法

Rose

Middle for Mac(触控板和鼠标增强工具) v1.8.4免激活版

iMac小白

北大AI公开课2019 | 科大讯飞刘聪:人工智能的“顶天立地”之路_AI&大模型_刘聪_InfoQ精选文章