《AI前线》(2020年1月)

《AI前线》(2020年1月)

发布于:2020-01-29 09:00
本期内容推荐:达摩院宣布十大技术趋势,AI有望迈过两大关键门槛;Jeff Dean再执笔:一文看尽2019谷歌AI重大突破。
下载此书

卷首语:我们处在什么样的 AI 浪潮之中?

2019 年,我们经历了什么样的 AI 浪潮?有人说 2019 年可能是最近十年最坏的一年,但也有可能是往后十年最好的一年。我们不赞同这样的观点。对未来,我们依然保持乐观,因为悲观者往往正确,乐观者往往成功。开年之际,我们希望和你聊聊过去的 2019 以及刚刚开始的 2020 年值得关注的技术趋势。


此前,《生成式深度学习》(Generative Deep Learning)(O’ Reilly Media 2019 年出版)一书作者 David Foster 对过去的 2019 年进行了回顾。

强化学习

如果用一句话来描述 2019 年的人工智能现状,那很可能是:“强化学习(Reinforcement Learning )回归,看起来将永存”。


这个领域已经存在几十年,从概念上来讲,它听起来比监督式学习更像是一种合理的创造智能的学习机制。然而,直到 2015 年,DeepMind 才获得了人们的关注,当时 DeepMind 使用深度 Q 学习(Deep Q-learning)创建了 Atari(雅达利) 游戏的智能体,这是一种结合了经典强化学习算法和深度神经网络的算法。2018 年,OpenAI 也通过 解决 Montezuma’s Revenge (一款被认为难度特别高的 Atari 游戏),从而在这一领域确立了自己的地位。


在过去的几个月里,围绕强化学习开展的工作越来越多,这些工作重新唤起了学术界对强化学习的信念,在过去,人们曾经认为强化学习效率低下,过于简单,无法解决复杂的问题,甚至连游戏的问题也不能解决。

自然语言处理

自 2018 年底以来,人们的注意力已经从过去的词嵌入转移到预训练语言模型,这是自然语言处理从计算机视觉中借鉴来的一种技术。


自 Google BERT 、 ELMo 和 ulmfit 等系统在 2018 年底推出以来,自然语言处理一直风头正茂,但今年的聚光灯被 OpenAI 的 GPT-2 给“夺走了”,它的表现引发了人们对 自然语言处理系统的道德使用的大讨论。

计算机视觉技术

对人工智能来说,创造虚假但又逼真的人物和物体的图像,已经不再是前沿领域了。从 2014 年生成对抗网络的引入 到 2019 年 NVDIA 开源的 StyleGAN ,都在对此进行证明。2019 年,人工智能创造的艺术品甚至脱离了过去几年的假设性讨论,成为了今天 博物馆装置和拍卖 的一部分。


计算机视觉还被应用于一些具有重大商业和社会意义的领域,包括自动驾驶车辆和医学。但是,人工智能算法在这些领域中的应用自然是缓慢的,因为它们直接与人类生活直接互动。至少到目前为止,这些系统还不是完全自主的,它们的目的,在于支持和增强人类操作员的能力。

2020 年,我们需要直面的问题

在 2020 年即将到来之际,AI 前线团队结合自己对行业的观察列举了未来一年可能的技术趋势。

深度迁移学习将基于预训练模型有更多改进

2019 年,由于预训练模型 BERT 以及 GPT 2.0 的发展,深度迁移学习成为 AI 领域的热门词汇。准确地说,预训练模型是自然语言处理领域新的 baseline,如果要在完全不依赖 BERT 的基础上,提出一个与 BERT 效果相当或者更好的新模型,目前来看可能性非常低。业界大部分 NLP 成果均是基于 BERT 的各种改进或者在对应业务场景上进行应用的,而且 BERT 的改进方向比较多,已经出现各种可用的变种 。


目前,XLNet、RoBERTa 等各种 BERT 的改进预训练模型,虽然是通过增加预训练的数据进一步提升效果,但除了增加数据,还做了许多模型方面的优化,这些突破都不是仅仅依靠堆数据就能带来的成果。


2020 年,深度迁移学习将基于预训练模型的演进而出现更多改进,比如对性能要求较高的场景需要对模型做一些改进和方案上的优化,双向语言模型有可能出现训练和预测不一致的现象,以及在长文本处理、文本生成任务上的不足。同样值得期待的是,该领域未来可能会出现更加轻量级的在线服务模型。拓展到自然语言处理领域,除了不断提升预训练模型的效果,未来如何更好地与领域的知识图谱融合,弥补预训练模型中知识的不足,也是新的技术突破方向。

图神经网络的应用边界将继续扩展

图神经网络(GNN,Graph Neural Networks)是 2019 年 AI 领域最热门的话题之一。虽然深度学习目前已经在诸多领域得到了显著的应用成果,但因果推理和可解释性仍是短板,这几年学术界和工业界都在探索新的方向。图神经网络是用于图结构数据的深度学习架构,将端到端学习与归纳推理相结合,业界普遍认为其有望解决深度学习无法处理的因果推理、可解释性等一系列瓶颈问题,是未来 3 到 5 年的重点方向。


展望来年,最可以确定的一点是 GNN 依然会保持如今快速发展的态势。从理论研究上看,不断解构 GNN 相关的原理、特色与不足,进而提出相应改进与拓展,是非常值得关注的部分,如动态图、时序图、异构图等。另外,一直以来研究 GNN 所用的标准数据集,如 Cora、PubMed,相对来说场景单一、异构性不足,难以对复杂的 GNN 模型进行准确评价。针对这一问题,近期斯坦福大学等开源的 OGB 标准数据集有望大大改善这个现状,在新的评价体系下,哪些工作能够脱颖而出,值得期待。


从应用上看,除了在视觉推理、点云学习、关系推理、科研、知识图谱、推荐、反欺诈等领域有广泛应用外,在其他的一些场景,如交通流量预测、医疗影像、组合优化等,也出现了一些 GNN 相关的工作。大体上看,如何准确有效地将图数据与 GNN 二者有机结合到相关场景,是应用上需要着重考虑的,相信来年,会出现更多这样的工作来拓展 GNN 的应用边界。此外,GNN 要真正在工业界大规模落地,底层系统架构方面仍需做大量工作。业界期待着一个更为开放、高性能,且支持超大规模分布式图网络计算的主流平台的出现。

知识图谱的自动化构建将成重要发展趋势

作为认知智能领域核心技术之一,目前知识图谱已运用到语音助手、聊天机器人、智能问答等热门的人工智能应用场景,并覆盖泛互联网、金融、政务、医疗等众多领域。尽管发展火爆,但现在知识图谱在构建和落地过程中还面临着诸多挑战:对人工构建的依赖度还较高,仍然缺乏从大规模数据里获取的手段;知识图谱的构建技术成本很高等。为解决上述问题,目前有很多公司都在做一些自动化构建知识图谱的探索工作,如明略科技开发了自动图谱构建工具,将一些中间构建过程自动化;腾讯正在基于聚类算法和强化学习结合的模式开发 schema 自动构建和根据反馈调整知识图谱的能力…


今年,知识图谱构建技术已经从过去的完全人工编辑,进化到了场景化定制 NLP 知识抽取配合人工模板和审核的模式,正在经历人工构建 - 群体构建 - 自动构建这样的技术路线。自动化构建知识图谱的特点是面向互联网的大规模、开放、异构环境,利用机器学习技术和信息抽取技术自动获取互联网信息。


2020 年,可以预见的是,大规模知识图谱的自动化、高质量构建将成为重要的发展趋势,具体来看,知识图谱的 schema 自动构建和图表示推理将成为关注的重点;另一方面,随着知识图谱在各个行业深入落地, 会有更多面向领域知识图谱的自动化构建方案涌现出来,比较看好医疗、智能金融等相关知识图谱及推理应用建设。随着 5G 的到来,5G 知识图谱的构建也值得期待。

5G 时代,多模态将为 AI 等领域带来新的活力

所谓“模态”,包括视觉、听觉、语义等,多模态即使用计算机将多种“感官”信息的融合。近年来,人工智能技术的蓬勃发展使得机器智能不断进步,多模态机器学习让机器像人类一样具有视觉、听觉和语义感知、理解和决策能力,正成为未来人工智能发展的必然方向,在自然人机交互、自动驾驶、VR/AR 等领域有巨大的应用价值。


伴随着 5G 时代的到来,多模态在信息处理、内容理解与创作、用户画像、个性化推荐等方面都将迸发出新的活力。主要表现在以下几点:


  • 借助于多模态信息处理,小规模样本数据和非监督的内容理解将会有一定的突破。当前内容理解主要以数据驱动,需要大量的标注样本。多模态包含比单模态更丰富的信息,并且存在一定的信息冗余,通过多模态之间信息相互增强和补充,在小规模样本数据和非监督内容理解方面比单模态更有优势。

  • 多模态与知识图谱的结合,利用基于有监督深度学习的模型分别理解各个模态,同时结合知识图谱深入理解多模态中各模态的内部关系,进而提供更准确高效的方案。

  • 目前无论单模态内容理解还是多模态内容理解,都是以数据驱动的技术,如何将所“感知”到的东西进行推理,以避免不合逻辑的识别结果也是未来研究的重点。

目录

生态评论

达摩院宣布十大技术趋势,AI 有望迈过两大关键门槛

重磅访谈

对话阿里巴巴贾扬清:如何成为一名优秀的 AI 架构师?

落地实践

阿里巴巴 Flink 踩坑经验:如何大幅降低 HDFS 压力?

推荐阅读

Jeff Dean 再执笔:一文看尽 2019 谷歌 AI 重大突破


人工智能的下一个拐点:图神经网络迎来快速爆发期


AI 催收能否画下暴力催收的休止符?


评论

发布
暂无评论