《AI前线》（2020年1月）_AI_InfoQ 中文站

卷首语：我们处在什么样的 AI 浪潮之中？

2019 年，我们经历了什么样的 AI 浪潮？有人说 2019 年可能是最近十年最坏的一年，但也有可能是往后十年最好的一年。我们不赞同这样的观点。对未来，我们依然保持乐观，因为悲观者往往正确，乐观者往往成功。开年之际，我们希望和你聊聊过去的 2019 以及刚刚开始的 2020 年值得关注的技术趋势。

此前，《生成式深度学习》（Generative Deep Learning）（O’ Reilly Media 2019 年出版）一书作者 David Foster 对过去的 2019 年进行了回顾。

强化学习

如果用一句话来描述 2019 年的人工智能现状，那很可能是：“强化学习（Reinforcement Learning ）回归，看起来将永存”。

这个领域已经存在几十年，从概念上来讲，它听起来比监督式学习更像是一种合理的创造智能的学习机制。然而，直到 2015 年，DeepMind 才获得了人们的关注，当时 DeepMind 使用深度 Q 学习（Deep Q-learning）创建了 Atari（雅达利）游戏的智能体，这是一种结合了经典强化学习算法和深度神经网络的算法。2018 年，OpenAI 也通过解决 Montezuma’s Revenge （一款被认为难度特别高的 Atari 游戏），从而在这一领域确立了自己的地位。

在过去的几个月里，围绕强化学习开展的工作越来越多，这些工作重新唤起了学术界对强化学习的信念，在过去，人们曾经认为强化学习效率低下，过于简单，无法解决复杂的问题，甚至连游戏的问题也不能解决。

自然语言处理

自 2018 年底以来，人们的注意力已经从过去的词嵌入转移到预训练语言模型，这是自然语言处理从计算机视觉中借鉴来的一种技术。

自 Google BERT 、 ELMo 和 ulmfit 等系统在 2018 年底推出以来，自然语言处理一直风头正茂，但今年的聚光灯被 OpenAI 的 GPT-2 给“夺走了”，它的表现引发了人们对自然语言处理系统的道德使用的大讨论。

计算机视觉技术

对人工智能来说，创造虚假但又逼真的人物和物体的图像，已经不再是前沿领域了。从 2014 年生成对抗网络的引入到 2019 年 NVDIA 开源的 StyleGAN ，都在对此进行证明。2019 年，人工智能创造的艺术品甚至脱离了过去几年的假设性讨论，成为了今天博物馆装置和拍卖的一部分。

计算机视觉还被应用于一些具有重大商业和社会意义的领域，包括自动驾驶车辆和医学。但是，人工智能算法在这些领域中的应用自然是缓慢的，因为它们直接与人类生活直接互动。至少到目前为止，这些系统还不是完全自主的，它们的目的，在于支持和增强人类操作员的能力。

2020 年，我们需要直面的问题

在 2020 年即将到来之际，AI 前线团队结合自己对行业的观察列举了未来一年可能的技术趋势。

深度迁移学习将基于预训练模型有更多改进

2019 年，由于预训练模型 BERT 以及 GPT 2.0 的发展，深度迁移学习成为 AI 领域的热门词汇。准确地说，预训练模型是自然语言处理领域新的 baseline，如果要在完全不依赖 BERT 的基础上，提出一个与 BERT 效果相当或者更好的新模型，目前来看可能性非常低。业界大部分 NLP 成果均是基于 BERT 的各种改进或者在对应业务场景上进行应用的，而且 BERT 的改进方向比较多，已经出现各种可用的变种。

目前，XLNet、RoBERTa 等各种 BERT 的改进预训练模型，虽然是通过增加预训练的数据进一步提升效果，但除了增加数据，还做了许多模型方面的优化，这些突破都不是仅仅依靠堆数据就能带来的成果。

2020 年，深度迁移学习将基于预训练模型的演进而出现更多改进，比如对性能要求较高的场景需要对模型做一些改进和方案上的优化，双向语言模型有可能出现训练和预测不一致的现象，以及在长文本处理、文本生成任务上的不足。同样值得期待的是，该领域未来可能会出现更加轻量级的在线服务模型。拓展到自然语言处理领域，除了不断提升预训练模型的效果，未来如何更好地与领域的知识图谱融合，弥补预训练模型中知识的不足，也是新的技术突破方向。

图神经网络的应用边界将继续扩展

图神经网络（GNN，Graph Neural Networks）是 2019 年 AI 领域最热门的话题之一。虽然深度学习目前已经在诸多领域得到了显著的应用成果，但因果推理和可解释性仍是短板，这几年学术界和工业界都在探索新的方向。图神经网络是用于图结构数据的深度学习架构，将端到端学习与归纳推理相结合，业界普遍认为其有望解决深度学习无法处理的因果推理、可解释性等一系列瓶颈问题，是未来 3 到 5 年的重点方向。

展望来年，最可以确定的一点是 GNN 依然会保持如今快速发展的态势。从理论研究上看，不断解构 GNN 相关的原理、特色与不足，进而提出相应改进与拓展，是非常值得关注的部分，如动态图、时序图、异构图等。另外，一直以来研究 GNN 所用的标准数据集，如 Cora、PubMed，相对来说场景单一、异构性不足，难以对复杂的 GNN 模型进行准确评价。针对这一问题，近期斯坦福大学等开源的 OGB 标准数据集有望大大改善这个现状，在新的评价体系下，哪些工作能够脱颖而出，值得期待。

从应用上看，除了在视觉推理、点云学习、关系推理、科研、知识图谱、推荐、反欺诈等领域有广泛应用外，在其他的一些场景，如交通流量预测、医疗影像、组合优化等，也出现了一些 GNN 相关的工作。大体上看，如何准确有效地将图数据与 GNN 二者有机结合到相关场景，是应用上需要着重考虑的，相信来年，会出现更多这样的工作来拓展 GNN 的应用边界。此外，GNN 要真正在工业界大规模落地，底层系统架构方面仍需做大量工作。业界期待着一个更为开放、高性能，且支持超大规模分布式图网络计算的主流平台的出现。

知识图谱的自动化构建将成重要发展趋势

作为认知智能领域核心技术之一，目前知识图谱已运用到语音助手、聊天机器人、智能问答等热门的人工智能应用场景，并覆盖泛互联网、金融、政务、医疗等众多领域。尽管发展火爆，但现在知识图谱在构建和落地过程中还面临着诸多挑战：对人工构建的依赖度还较高，仍然缺乏从大规模数据里获取的手段；知识图谱的构建技术成本很高等。为解决上述问题，目前有很多公司都在做一些自动化构建知识图谱的探索工作，如明略科技开发了自动图谱构建工具，将一些中间构建过程自动化；腾讯正在基于聚类算法和强化学习结合的模式开发 schema 自动构建和根据反馈调整知识图谱的能力…

今年，知识图谱构建技术已经从过去的完全人工编辑，进化到了场景化定制 NLP 知识抽取配合人工模板和审核的模式，正在经历人工构建 - 群体构建 - 自动构建这样的技术路线。自动化构建知识图谱的特点是面向互联网的大规模、开放、异构环境，利用机器学习技术和信息抽取技术自动获取互联网信息。

2020 年，可以预见的是，大规模知识图谱的自动化、高质量构建将成为重要的发展趋势，具体来看，知识图谱的 schema 自动构建和图表示推理将成为关注的重点；另一方面，随着知识图谱在各个行业深入落地，会有更多面向领域知识图谱的自动化构建方案涌现出来，比较看好医疗、智能金融等相关知识图谱及推理应用建设。随着 5G 的到来，5G 知识图谱的构建也值得期待。

5G 时代，多模态将为 AI 等领域带来新的活力

所谓“模态”，包括视觉、听觉、语义等，多模态即使用计算机将多种“感官”信息的融合。近年来，人工智能技术的蓬勃发展使得机器智能不断进步，多模态机器学习让机器像人类一样具有视觉、听觉和语义感知、理解和决策能力，正成为未来人工智能发展的必然方向，在自然人机交互、自动驾驶、VR/AR 等领域有巨大的应用价值。

伴随着 5G 时代的到来，多模态在信息处理、内容理解与创作、用户画像、个性化推荐等方面都将迸发出新的活力。主要表现在以下几点：

借助于多模态信息处理，小规模样本数据和非监督的内容理解将会有一定的突破。当前内容理解主要以数据驱动，需要大量的标注样本。多模态包含比单模态更丰富的信息，并且存在一定的信息冗余，通过多模态之间信息相互增强和补充，在小规模样本数据和非监督内容理解方面比单模态更有优势。
多模态与知识图谱的结合，利用基于有监督深度学习的模型分别理解各个模态，同时结合知识图谱深入理解多模态中各模态的内部关系，进而提供更准确高效的方案。
目前无论单模态内容理解还是多模态内容理解，都是以数据驱动的技术，如何将所“感知”到的东西进行推理，以避免不合逻辑的识别结果也是未来研究的重点。

创作场景

《AI前线》（2020年1月）

作者：InfoQ 中文站

卷首语：我们处在什么样的 AI 浪潮之中？

强化学习

自然语言处理

计算机视觉技术

2020 年，我们需要直面的问题

深度迁移学习将基于预训练模型有更多改进

图神经网络的应用边界将继续扩展

知识图谱的自动化构建将成重要发展趋势

5G 时代，多模态将为 AI 等领域带来新的活力

目录

生态评论

重磅访谈

落地实践

推荐阅读

评论

推荐阅读

订阅

大厂实战PPT下载