探索NLP中的Attention注意力机制及Transformer详解-InfoQ

抖音技术能力大揭密！钜惠大礼、深度体验，尽在火山引擎增长沙龙，就等你来！立即报名>> 了解详情 



 写点什么

本文由原作者授权转载自知乎专栏：高能 NLP 之路

一、Attention 机制剖析

1、为什么要引入 Attention 机制？

根据通用近似定理，前馈网络和循环网络都有很强的能力。但为什么还要引入注意力机制呢？

计算能力的限制：当要记住很多“信息“，模型就要变得更复杂，然而目前计算能力依然是限制神经网络发展的瓶颈。
优化算法的限制：虽然局部连接、权重共享以及 pooling 等优化操作可以让神经网络变得简单一些，有效缓解模型复杂度和表达能力之间的矛盾；但是，如循环神经网络中的长距离以来问题，信息“记忆”能力并不高。

可以借助人脑处理信息过载的方式，例如 Attention 机制可以提高神经网络处理信息的能力。

2、Attention 机制有哪些？（怎么分类？）

当用神经网络来处理大量的输入信息时，也可以借鉴人脑的注意力机制，只选择一些关键的信息输入进行处理，来提高神经网络的效率。按照认知神经学中的注意力，可以总体上分为两类：

聚焦式（focus）注意力：自上而下的有意识的注意力，主动注意——是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力；
显著性（saliency-based）注意力：自下而上的有意识的注意力，被动注意——基于显著性的注意力是由外界刺激驱动的注意，不需要主动干预，也和任务无关；可以将 max-pooling 和门控（gating）机制来近似地看作是自下而上的基于显著性的注意力机制。

在人工神经网络中，注意力机制一般就特指聚焦式注意力。

3、Attention 机制的计算流程是怎样的？

Attention 机制的实质：寻址（addressing）

Attention 机制的实质其实就是一个寻址（addressing）的过程，如上图所示：给定一个和任务相关的查询 Query 向量 q，通过计算与 Key 的注意力分布并附加在 Value 上，从而计算 Attention Value，这个过程实际上是 Attention 机制缓解神经网络模型复杂度的体现：不需要将所有的 N 个输入信息都输入到神经网络进行计算，只需要从 X 中选择一些和任务相关的信息输入给神经网络。

注意力机制可以分为三步：一是信息输入；二是计算注意力分布α；三是根据注意力分布α 来计算输入信息的加权平均。

step1-信息输入：用 X = [x1, · · · , xN ]表示 N 个输入信息；

step2-注意力分布计算：令 Key=Value=X，则可以给出注意力分布

我们将 αi 称之为注意力分布（概率分布）， s(Xi，q) 为注意力打分机制，有几种打分机制：

step3-信息加权平均：注意力分布 αi 可以解释为在上下文查询 q 时，第 i 个信息受关注的程度，采用一种“软性”的信息选择机制对输入信息 X 进行编码为：

这种编码方式为软性注意力机制（soft Attention），软性注意力机制有两种：普通模式（Key=Value=X）和键值对模式（Key！=Value）。

软性注意力机制（soft Attention）

4、Attention 机制的变种有哪些？

与普通的 Attention 机制（上图左）相比，Attention 机制有哪些变种呢？

变种 1-硬性注意力：之前提到的注意力是软性注意力，其选择的信息是所有输入信息在注意力分布下的期望。还有一种注意力是只关注到某一个位置上的信息，叫做硬性注意力（hard attention）。硬性注意力有两种实现方式：

（1）一种是选取最高概率的输入信息；

（2）另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。

硬性注意力模型的缺点：

硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导，因此无法使用在反向传播算法进行训练。为了使用反向传播算法，一般使用软性注意力来代替硬性注意力。硬性注意力需要通过强化学习来进行训练。——《神经网络与深度学习》

变种 2-键值对注意力：即上图右边的键值对模式，此时 Key！=Value，注意力函数变为：

变种 3-多头注意力：多头注意力（multi-head attention）是利用多个查询 Q = [q1, · · · , qM]，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分，然后再进行拼接：

5、一种强大的 Attention 机制：为什么自注意力模型（self-Attention model）在长距离序列中如此强大？

（1）卷积或循环神经网络难道不能处理长距离序列吗？

当使用神经网络来处理一个变长的向量序列时，我们通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列，如图所示：

基于卷积网络和循环网络的变长序列编码

从上图可以看出，无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”：卷积神经网络显然是基于 N-gram 的局部编码；而对于循环神经网络，由于梯度消失等问题也只能建立短距离依赖。

（2）要解决这种短距离依赖的“局部编码”问题，从而对输入序列建立长距离依赖关系，有哪些办法呢？

如果要建立输入序列之间的长距离依赖关系，可以使用以下两种方法：一种方法是增加网络的层数，通过一个深层网络来获取远距离的信息交互，另一种方法是使用全连接网络。 ——《神经网络与深度学习》

全连接模型和自注意力模型：实线表示为可学习的权重，虚线表示动态生成的权重。

由上图可以看出，全连接网络虽然是一种非常直接的建模远距离依赖的模型，但是无法处理变长的输入序列。不同的输入长度，其连接权重的大小也是不同的。

这时我们就可以利用注意力机制来“动态”地生成不同连接的权重，这就是自注意力模型（self-attention model）。由于自注意力模型的权重是动态生成的，因此可以处理变长的信息序列。

总体来说，为什么自注意力模型（self-Attention model）如此强大：利用注意力机制来“动态”地生成不同连接的权重，从而处理变长的信息序列。

（3）自注意力模型（self-Attention model）具体的计算流程是怎样的呢?

同样，给出信息输入：用 X = [x1, · · · , xN ]表示 N 个输入信息；通过线性变换得到为查询向量序列，键向量序列和值向量序列：

上面的公式可以看出，self-Attention 中的 Q 是对自身（self）输入的变换，而在传统的 Attention 中，Q 来自于外部。

self-Attention 计算过程剖解（来自《细讲 | Attention Is All You Need 》）

注意力计算公式为：

自注意力模型（self-Attention model）中，通常使用缩放点积来作为注意力打分函数，输出向量序列可以写为：

二、Transformer（Attention Is All You Need）详解

从 Transformer 这篇论文的题目可以看出，Transformer 的核心就是 Attention，这也就是为什么本文会在剖析玩 Attention 机制之后会引出 Transformer，如果对上面的 Attention 机制特别是自注意力模型（self-Attention model）理解后，Transformer 就很容易理解了。

1、Transformer 的整体架构是怎样的？由哪些部分组成？

Transformer 模型架构

Transformer 其实这就是一个 Seq2Seq 模型，左边一个 encoder 把输入读进去，右边一个 decoder 得到输出：

Seq2Seq 模型

Transformer=Transformer Encoder+Transformer Decoder

（1）Transformer Encoder（N=6 层，每层包括 2 个 sub-layers）：

Transformer Encoder

sub-layer-1：multi-head self-attention mechanism，用来进行 self-attention。

sub-layer-2：Position-wise Feed-forward Networks，简单的全连接网络，对每个 position 的向量分别进行相同的操作，包括两个线性变换和一个 ReLU 激活输出（输入输出层的维度都为 512，中间层为 2048）：

每个 sub-layer 都使用了残差网络：

（2）Transformer Decoder（N=6 层，每层包括 3 个 sub-layers）：

Transformer Decoder

sub-layer-1：Masked multi-head self-attention mechanism，用来进行 self-attention，与 Encoder 不同：由于是序列生成过程，所以在时刻 i 的时候，大于 i 的时刻都没有结果，只有小于 i 的时刻有结果，因此需要做 Mask。
sub-layer-2：Position-wise Feed-forward Networks，同 Encoder。
sub-layer-3：Encoder-Decoder attention 计算。

2、Transformer Encoder 与 Transformer Decoder 有哪些不同？

（1）multi-head self-attention mechanism 不同，Encoder 中不需要使用 Masked，而 Decoder 中需要使用 Masked；

（2）Decoder 中多了一层 Encoder-Decoder attention，这与 self-attention mechanism 不同。

3、Encoder-Decoder attention 与 self-attention mechanism 有哪些不同？

它们都是用了 multi-head 计算，不过 Encoder-Decoder attention 采用传统的 attention 机制，其中的 Query 是 self-attention mechanism 已经计算出的上一时间 i 处的编码值，Key 和 Value 都是 Encoder 的输出，这与 self-attention mechanism 不同。代码中具体体现：

 ## Multihead Attention ( self-attention)            self.dec = multihead_attention(queries=self.dec,                                           keys=self.dec,                                           num_units=hp.hidden_units,                                           num_heads=hp.num_heads,                                           dropout_rate=hp.dropout_rate,                                           is_training=is_training,                                           causality=True,                                           scope="self_attention")
## Multihead Attention ( Encoder-Decoder attention)            self.dec = multihead_attention(queries=self.dec,                                           keys=self.enc,                                           num_units=hp.hidden_units,                                           num_heads=hp.num_heads,                                           dropout_rate=hp.dropout_rate,                                           is_training=is_training,                                           causality=False,                                           scope="vanilla_attention")

复制代码

4、multi-head self-attention mechanism 具体的计算过程是怎样的？

multi-head self-attention mechanism 计算过程

Transformer 中的 Attention 机制由 Scaled Dot-Product Attention 和 Multi-Head Attention 组成，上图给出了整体流程。下面具体介绍各个环节：

Expand：实际上是经过线性变换，生成 Q、K、V 三个向量；
Split heads: 进行分头操作，在原文中将原来每个位置 512 维度分成 8 个 head，每个 head 维度变为 64；
Self Attention：对每个 head 进行 Self Attention，具体过程和第一部分介绍的一致；
Concat heads：对进行完 Self Attention 每个 head 进行拼接；

上述过程公式为：

5、Transformer 在 GPT 和 Bert 等词向量预训练模型中具体是怎么应用的？有什么变化？

GPT 中训练的是单向语言模型，其实就是直接应用 Transformer Decoder；
Bert 中训练的是双向语言模型，应用了 Transformer Encoder 部分，不过在 Encoder 基础上还做了 Masked 操作；

BERT Transformer 使用双向 self-attention，而 GPT Transformer 使用受限制的 self-attention，其中每个 token 只能处理其左侧的上下文。双向 Transformer 通常被称为“Transformer encoder”，而左侧上下文被称为“Transformer decoder”，decoder 是不能获要预测的信息的。