如何将知识图谱的信息嵌入到预训练语言模型中，已经成为当前的研究热点。近日，来自华为云、华为诺亚方舟实验室和中科大的研究人员共同发布了一项新研究成果，通过提取知识图谱中的子图，并输入到基于Transformer的模型中来学习知识嵌入，在多个医学NLP任务上达到最佳性能。本文是AI前线第103篇论文导读，我们将对这项研究工作进行详细解读。

论文作者| Bin He，Di Zhou，Jinghui Xiao等

概览

预训练的语言模型通过一种自我监督的学习方法在大规模文本语料库中学习上下文的单词表征，借助这种方法对下游任务进行微调，就可以获得最佳（SOTA）性能。这一方法逐渐成为自然语言处理研究的新范式。近年来，知识信息被整合到预先训练好的语言模型中，以增强语言的表现力，如ERNIE-Tsinghua和ERNIE-Baidu。Zhang等人初步尝试利用从知识图谱中获得的知识信息来改进某些知识驱动型任务的性能。直观地说，该模型可以直接应用于医学领域，在医学领域中，大规模的语料库和知识图都是可用的。

在ERNIE-Tsinghua，实体嵌入是通过TransE学习的，这是一种流行的基于转换的知识表征学习方法（KRL）。TransE只是将知识图中的每一个三元组看作一个训练实例，这可能不足以对知识图中节点之间的复杂信息传输进行建模。在医学知识图谱中，有些实体有大量的相关邻域，而TransE不能同时为相应的邻域建模。

图1显示了包含多个医疗实体的医学知识图的子图。在此图中，列出了节点“细菌性肺炎”的四个传入和四个传出相邻节点（以下称为“传入实体”和“传出实体”），节点之间具有各种类型的关系。因此，为了学习更全面的节点嵌入，有必要在节点之间合并更多的交互信息（我们称之为“图上下文信息”）。图注意力网络（GATs）通过一跳邻居更新实体嵌入，更加关注节点信息交互。基于GATs，对给定实体的多跳邻居进行集成以获取更多信息（Nathani等人，2019年）。

受先前工作的启发，我们将节点间的信息交互扩展到一种更一般的方法，可以将知识图中的任意子图作为训练实例。具体地说，子图被转换成一系列节点，KRL过程的执行方式类似于训练语言模型。在这个模型中，每个节点更全面的上下文信息可以被整合到学习的知识表征中。此外，我们认为在KRL过程中实体和关系应该是相互影响的，因此关系也被视为图节点，并与实体共同学习。

最后，我们的预训练模型BERT-MK（一个基于BERT的医学知识语言模型）是在一个大规模的医学语料库中学习的，并与用上述KRL方法表示的医学知识图相结合。我们的贡献如下：

（1）提出了一种能对任意子图进行建模的知识表征学习方法。该方法极大地丰富了知识表征中的信息量，探索了实体和关系的联合学习。

（2）图的上下文知识被整合以提高预先训练语言模型的性能，这在医学领域的几个NLP任务上优于最新的模型。

研究方法

在我们的模型中，每次从知识图中选取一定数量的节点及其连接节点来构造训练样本。然后，利用一种新的基于Transformer的知识表示学习算法，从节点的邻域中学习节点的嵌入。最后，将学习到的知识表示融入到语言模型中，增强模型的预训练和微调能力。

利用Transformer学习知识图嵌入

Transformer 可作为一个强大的编码器来模拟顺序输入。最近，Koncel-Kedziorski等人扩展了Transformer来编码图结构的输入。在他们的工作中，文本首先被转换成一个图，然后通过图Transformer编码器编码输出到一个文本生成模型中。在他们工作的激励下，我们将一个知识子图转换为一个节点序列，并利用一个基于Transformer的模型来学习节点嵌入。我们称此模型为“KG-Transformer”，其中，KG表示知识图，方法的进一步细节在随后章节中作了说明。

Graph Conversion

我们将知识图表示为G=（E，R），其中E表示实体集，R是G中实体对之间的关系集。G中的三元组表示为t=（es，r，eo），其中es是主观实体，eo是客观实体，r是es和eo之间的关系。图1给出了医学KG的一个子图示例。两个实体（矩形）和它们之间的关系（箭头）构成了一个知识三元组，例如，（细菌性肺炎，细菌的病原体）。

在传统的KRL方法中，如TransE 以及ConvKB。在这个设置中，来自实体邻居的信息不能同时更新实体嵌入。图注意力网络（GATs）被提出来是为了解决这一问题。Nathani等人利用GAT来建立KRL模型，其中所有指向客观实体的主观实体被用于学习客观实体的嵌入。在我们的工作中，我们提出了一种更通用的方法，以KG的任意子图为训练样本，极大地丰富了学习知识表示的情境化信息。为了便于解释，在图2（a）中，我们选择一个实体及其两个输入实体和输出实体来构建训练样本。

此外，将KG中的关系学习为等价于实体的节点，实现了实体嵌入和关系嵌入的联合训练。节点转换过程如图2（b）所示。知识图可以重新定义为G=（V，E），其中V表示G中的节点，涉及E中的实体和R中的关系，E表示V中节点之间的有向边的邻接矩阵。图2（c）中的邻接矩阵显示了图2（b）中节点之间的连接性。

子图的转换结果如图2（c）所示，包括节点序列、节点位置索引矩阵和邻接矩阵。节点位置索引矩阵的每一行对应于图中的一个三元组。例如，三元组（e1，r1，e）表示为该矩阵中的第一行（0，1，4）。在邻接矩阵中，如果节点i连接到图2（b）中的节点j，则元素aij等于1，否则为0。

基于Transformer的编码器

我们将节点序列表示为{x1，…，xN}，其中N是输入序列的长度。此外，节点位置索引矩阵和邻接矩阵分别定义为P和A。实体嵌入和关系嵌入集成在一个矩阵V，V∈R（ne+nr）×d，其中ne是E中的实体数，nr是R中的关系类型数，节点嵌入X={x1，…，xN}可以通过在嵌入矩阵V.X，P中查找节点序列{x1，. . ，xN}产生，A构成KRL模型的输入，如图3所示。

输入被送入到基于Transformer的模型中，对节点信息进行编码。

其中x’i是节点xi的新嵌入。（+）表示连接这一层中的H个注意力头，aij(h)和Wv(h)是节点xj的注意力权重和节点嵌入xj在h(th)注意头中的线性变换。方程3中的掩码函数限制了输入节点之间的上下文依赖关系，只涉及节点的入度和当前节点本身来更新节点嵌入。与Wv(h)类似，Wq(h)和Wk(h)是节点嵌入的独立线性变换。然后，新的节点嵌入被送到前馈神经网络层以进行进一步的编码。

在Transformer模型中，我们将前面提到的Transformer块叠加L次。基于Transformer的编码器的输出可以形式化为

训练目标

编码器X(o)的输出和节点位置索引P用于恢复三元组并生成这些三元组的嵌入：

其中Tk=（Xeks，Xrk，Xeko）和Pk=（eks，rk，eko）是有效知识三元组的位置索引。

在本研究中，基于转换的评分函数被用来衡量知识三元组的能量。通过最小化训练数据上margin-based的损失函数来学习节点嵌入：

其中t=（ts，tr，to），d（t）=| ts+tr−to |，γ>0是一个margin的超参数，f(t)是一个实体替换操作，三元组中的头实体或尾实体被替换，而被替换的三元组在KG中是一个无效的三元组。

将知识集成到语言模型中

给定一个综合的医学知识图，利用KG-Transformer模型可以学习图的上下文知识表示。我们遵循提出的语言模型体系结构（Zhang等.2019），利用图上下文知识增强医学语言表示。语言模型预训练过程如图3的左侧所示。Transformer块对词的上下文表示进行编码，聚合块实现知识和语言信息的融合。

根据医学NLP任务的特点，设计了特定领域的finetuning过程。类似于BioBERT，符号“@”和“$”用于标记实体边界，表示样本中的实体位置，并区分共享同一句子的不同关系示例。例如，关系分类任务的输入序列可以修改为“[CLS] ，pain control was initiated with morphine but was then changed to @ demerol $, which gave the patient better relief of @ his epigastric pain $ ”。在实体类型任务中，实体提示及其上下文对于预测实体类型至关重要，因此实体提示的更多本地化特征将有助于此预测过程。在我们的实验中，实体开始标签“@”被选择来表示实体类型示例。

实验

数据集

医学知识图

统一的医学语言系统（UMLS）（Bodenreider 2004）是生物医学领域的一个综合性知识库，包含了大规模的概念名称及其相互关系。UMLS中的元词表涉及各种术语系统，包含约1400万个术语，涵盖25种不同的语言。在本研究中，我们提取此知识库的一个子集来建构KRL的医学知识图。过滤非英语和长术语，最终统计如表1所示。

预训练语料库

为了保证足够的医学知识能够被整合到语言模型中，选择了PubMed摘要和PubMed中心全文作为训练前的语料库，它们是生物医学和生命科学期刊文献的开放存取数据集。由于不同段落中的句子可能没有很好的上下文连贯性，因此选择段落作为下一个句子预测的文档单元。使用自然语言工具包（NLTK）在一个段落中将句子切分，对少于5个单词的句子进行分解。结果，一个包含9.9B 词的大型语料库被归档，用于语言模型的预训练。

在我们的模型中，出现在语料库中的医学术语需要在训练前与UMLS元词表中的实体对齐。为了确保元分类中识别的实体的覆盖，使用正向最大匹配（FMM）算法从上述语料库中提取术语跨度，并且过滤小于5个字符的跨度。然后，使用BERT词汇表将输入文本标记成词块，并且医疗实体与标识的词的第一个子词对齐。

下游任务

在本研究中，我们使用医学领域中的实体分类和关系分类任务来评估模型。

实体类型

给定一个带有实体提示标记的句子，实体类型的任务是识别该实体提示的语义类型。例如，类型“medical problem”用于标记句子中提到的实体“he had a differential diagnosis⟨e⟩asystole⟨/e⟩”。据我们所知，医学领域没有公开的实体类型数据集，因此，从相应的医学命名实体识别数据集构造了三个实体类型数据集。在这些数据集中，实体提及和实体类型被标注，在本研究中，实体提及被视为输入，而实体类型是输出标签。表2显示了实体类型任务的数据集统计信息。

关系分类

给定一个句子中有两个实体，任务的目的是确定实体之间的关系类型。例如，在“pain control was initiated with morphine but was then changed to ⟨e1⟩demerol⟨/e1⟩，which gave the patient better relief of ⟨e2⟩his epigastric pain ⟨/e2⟩”这句话中，两个实体之间的关系类型是TrIP（治疗改善医疗问题）。在本研究中，我们使用三个关系分类数据集来评估我们的模型，这些数据集的统计数据如表2所示。

实现细节

知识表征学习

为了实现基本的知识表示，将UMLS三元组输入到TransE模型中。OpenKE工具包（Han等人，2018）对实体和关系嵌入进行训练，嵌入维数设为100，训练epoch数设为10000。

遵循（Nguyen等人,2018年；Nathani等人,2019）使用的初始化方法，使用TransE生成的嵌入来初始化KG Transformer模型的表征学习。层数量和隐藏头的数量都设置为4。由于UMLS中节点的中位数为4（如表1所示），因此将一个具有两个输入节点和两个输出节点的节点作为训练实例进行采样。KG-Transformer模型在一个NVIDIA Tesla V100（32GB）GPU上运行1200个epoch，以训练知识嵌入，批量大小为50000。

预训练

首先，在UMLS三元组和PubMed语料库上训练医学ERNIE（MedERNIE）模型，继承了相同的模型超参数（Zhang等人。2019年）。此外，将KG-Transformer模型学习到的实体嵌入集成到语言模型中，训练BERT-MK模型。在我们的工作中，我们将相同数量的预训练与使用与我们相同的预训练语料库的BioBERT对齐，并对PubMed语料库上的BERT-Base模型进行一个epoch的优化。

调优

由于有些数据集没有标准的验证集，我们将训练集按4:1分为一个新的训练集和一个验证集。对于包含标准测试集的数据集，我们在不同随机种子的特定实验设置下，对每个实验进行5次预处理，并将平均结果用于提高评估的可靠性。此外，还采用了10倍交叉验证方法来评估没有标准测试集的数据集的模型性能。根据每个数据集中句子的最大长度，输入序列长度为2010 i2B2/VA（UZUNER等,2011年），JNLPBA（Kim等人,2004年），BC5CDR（Li等人,2016年），GAD（Bravo等人,2015年）和EU-ADR（Van Mulligen等人,2012年）分别设置为390、280、280、130和220。初始学习速率设置为2e-5。

基线

除了这些数据集上的最新模型外，我们还添加了流行的BERT基模型和另外两个在生物医学文献上预训练的模型，以供进一步比较。

BERT-Base

这是Google最初提出的双向预训练语言模型，它在一系列NLP任务上实现了最先进的性能。

BioBERT

这个模型遵循与BERT-Base模型相同的模型架构，但是PubMed摘要和PubMed中心全文文章（大约18B令牌）用于对BERT-Base进行模型微调。

SCIBERT

一个新的词条词汇表是建立在一个大型科学词条（大约32亿个标记）的基础上的。然后，利用这个新的科学词汇和科学语料库，从头开始训练一个新的基于BERT的模型。由于科学语料库的很大一部分是生物医学文章，因此该科学词汇也可以看作是生物医学词汇，可以有效地提高生物医学领域下游任务的性能。

结果

表3给出了实体类型和关系分类任务的实验结果。对于实体类型任务，所有这些预先训练的语言模型都能达到很高的准确性，这表明医学实体的类型不像一般领域中的类型那么复杂。BERT-MK的平均准确率分别比BERT-Base、BioBERT和SCIBERT高0.71%、0.24%和0.02%。在不使用外部知识的情况下，SCIBERT在预先训练的语言模型中获得了与BERT-MK相当的结果，这证明了领域特定词汇对输入的特征编码至关重要。

在医学领域中，长词汇是比较常见的，当使用领域无关词汇时，这些词汇将被分割成短片段，这将导致词汇特征的过度泛化。因此，在接下来的工作中，可以将PubMed语料库生成的医学词汇引入到BERT-MK中。

在关系分类任务中，BERT-Base的性能不如其他模型，这说明在受限域中使用预先训练的语言模型需要一个域自适应过程。与BioBERT相比，BERT-MK使用了与我们相同的领域特定语料库对预先训练的语言模型进行领域适应，其平均F值提高了2.27%，说明医学知识确实对医学关系的识别起到了积极的作用。下面的例子简要解释了为什么医学知识可以提高关系分类任务的模型性能。“On postoperative day number three,patient went into atrial fibrillation ,which was treated appropriately with metoprolol and digoxin and converted back to sinus rhythm”是2010 i2b2/VA数据集的关系样本，关系标签为TrIP。同时，上述实体对可以与医学知识图中的知识三元组（atrial fibrillation，may be treated by ,metoprolol ）对齐。显然，这些知识信息有利于上述示例的关系分类。

TransE vs. KG-Transformer

为了更直观地分析我们提出的预训练语言模型的KRL方法，我们将MedERNIE（TransE用于学习知识表示）和BERT-MK（对应于KG-Transformer）在两个关系分类数据集上进行了比较。表4展示了这两个模型的结果。正如我们看到的，集成KG-Transformer模型学习到的知识信息，两个关系分类数据集的F值分别提高了0.9%和0.64%，说明知识质量的提高对预训练语言模型有一定的促进作用。

在图4中，随着训练前数据量的增加，在2010 i2b2/VA关系数据集上，BERT-MK始终优于MedERNIE，并且性能差距有增加的趋势。然而，在GAD数据集上，BERT-MK和MedERNIE的性能是相互交织的。我们将关系样本中的实体链接到知识图，并对链接节点之间的关系进行统计分析。我们观察到2010年i2b2/VA中有136个2跳邻居关系，而GAD中只有1个。表5所示的第二种情况举例说明了上述情况。三元组（CAD，member of ，Other is chemic heart disease(SMQ)）和（Other ischemic heart disease(SMQ),has member，Angina symptom）被发现在医学知识图中，表明实体cad 与entity angina symptoms 有2跳neigh-bor关系。KG Transformer在2010年的i2b2/VA中学习了这些2跳neigh-bor关系，并对BERT-MK进行了改进。但是，由于GAD数据集的特性，KG Transformer的能力有限。

在预训练中语料库大小的影响

图4显示了不同比例的预训练语料库的模型性能比较。从这个图中，我们观察到，BERT-MK只使用了10%-20%的语料，其性能优于BioBERT，这表明医学知识具有增强预训练语言模型和节省计算成本的能力。

未来工作

我们提出了一种新的方法来学习更全面的知识表示，重点是用一种基于Transformer的方法来建模知识图中的子图。此外，学习到的医学知识被整合到预先训练的语言模型中，在几个医学NLP任务中，预先训练的语言模型优于BERT-Base和另外两个特定领域的预先训练语言模型。我们的工作验证了医学知识对某些医学自然语言处理任务有益的直觉，为医学知识的应用提供了初步的探索。

在后续工作中，将采用传统的下游任务知识表示学习方法，如关联预测等，进一步验证KG-Transformer模型的有效性。此外，我们还将探索一种更优雅的方式，将医学知识与语言模型结合起来。

论文原文链接：

https://arxiv.org/pdf/1912.00147.pdf

创作场景

华为联合中科大提出知识图谱结合预训练模型新方法，节省 20% 计算成本