SIGIR 2023 | 基于图的预训练和提示来增强低资源文本分类

©PaperWeekly 原创 · 作者 | Zhihao Wen

单位 | 新加坡管理大学

研究方向 | 图神经网络，文本分类

摘要

本文由来自新加坡管理大学的作者提出了一种基于图的预训练和提示来增强低资源文本分类的方法 G2P2。

论文标题：

Augmenting Low-Resource Text Classification with Graph-Grounded Pre-training and Prompting

论文地址：

https://dl.acm.org/doi/pdf/10.1145/3539618.3591641

文本分类是信息检索中的一个基本问题，在现实世界中有许多应用，例如预测在线文章的主题和电子商务产品描述的类别。然而，低资源文本分类由于标注样本较少或没有标注样本，给监督学习带来了严重的问题。同时，许多文本数据本身就基于网络结构，如在线文章的超链接/引用网络和电子商务产品的用户-物品购买网络。这些图结构捕捉了丰富的语义关系，有可能增强低资源文本分类。

在本文中，我们提出了一种名为 “基于图的预训练和提示”（Graph-Grounded Pre-training and Prompting，G2P2）的新型模型，以双管齐下的方式解决低资源文本分类问题。在预训练过程中，我们提出了三种基于图交互的对比策略，以联合预训练图-文本模型；在下游分类过程中，我们探索了对联合预训练模型的提示，以实现低资源分类。在四个真实世界数据集上的广泛实验证明了 G2P2 在零资源和少量资源文本分类任务中的优势。

简介

文本分类是一个基础研究问题，在信息检索中有许多重要应用。例如，预测在线文章的主题可以帮助读者轻松地在网站或门户网站内进行搜索和导航；对电子商务商品描述的类别进行分类可以帮助企业有效地组织库存，改善用户的搜索体验。

近十年来，有监督深度学习在文本分类方面取得了显著的进步，尤其是在有大规模和高质量标签数据的情况下。然而，数据标注通常成本高、耗时长，因此，在没有或仅有少量标注样本的情况下，低资源分类成为一种有吸引力的替代方法。

要解决低资源文本分类问题，一种方法是利用预先训练好的语言模型（PLM）。通过微调模型参数以达到特定任务的目标，PLM 可以适应不同的任务。与传统的监督学习相比，“预训练、微调”模式所需的标注数据更少，但它有两个缺点。

首先，最先进的 PLM 通常具有巨大的模型规模，例如，GPT-3 有 1750 亿个参数，这使得微调的成本过高。其次，由于预训练和微调目标之间的差距，微调仍然需要合理数量的标注数据，因此在低资源场景（包括零和少量分类）下很难实现。为了克服预训练和微调的问题，有人提出了提示法。它使用自然语言指令或 "提示 "来提示下游任务，同时冻结大型 PLM 的参数。

与此同时，文本数据经常以网络结构为基础，这些网络结构揭示了文章或项目之间的重要关系，可用于增强低资源文本分类。现有的 PLM 和提示并不能利用这些关系，而图神经网络（GNN）是基于消息传递架构设计的，可以从图结构中学习。然而，传统的端到端 GNN 训练严重依赖于丰富的特定任务标签。

这就激发了 GNN 在无标签图上采用精心设计的前置任务来进行自监督学习来抽取知识，以使得减少对标签的依赖。遗憾的是，GNN 对文本特征的处理仍然很初级。通常情况下，简单的词袋表示或浅层词嵌入向量的聚合被输入到 GNN 中作为初始节点特征，然后再沿着图结构进一步传播。因此，GNN 对文本的建模是粗粒度的，无法完全捕捉文本中细微的语义差异和相似性。

2.1 面临的挑战和提出的工作

为了克服现有基于文本和图的解决方案的局限性，我们必须解决以下两个开放性问题。

首先，我们如何捕捉细粒度的文本语义，同时联合利用图结构信息？一种简单的方法是使用语言模型从原始文本作为输入生成特征，然后训练 GNN。然而，这样一来，文本和图只是松散地耦合在一起，缺乏明确的配对来相互补充。在本文中，我们提出了以图为基础的对比预训练，根据文本-节点、文本-摘要和节点-摘要三种图的交互，最大限度地提高文本和图表征之间的一致性。

其次，在联合预训练图-文模型的情况下，我们如何增强低资源文本分类？我们提出了一种新方法，即 “提示” 联合预训练的图-文模型，而不是对其进行微调。这样，我们就能利用预训练模型中最相关的结构和语义信息，使该过程更适合低资源场景。

更具体地说，我们将手工制作的离散提示用于零样本分类，将连续提示用于基于自动提示调整的少样本设置。由于涉及的参数少得多，提示调整比对预训练模型进行微调更节省标签和计算。此外，我们还提出了一种基于上下文的提示调整初始化方法，该方法考虑了文本之间的图结构，从而提供了一个信息量更大的训练起点。

方法

3.1 G2P2 概述

如图 1 所示，我们的模型包括两个阶段：（a）基于图的恒定预训练；（b）用于低资源分类的基于图的及时调整。

在预训练期间，我们通过以自我监督的方式联合训练文本编码器和图编码器来学习双模态嵌入空间，因为文档也是图上的一个节点。更具体地说，我们使用基于转换器的文本编码器和基于 GNN 的图编码器。转换器将每个节点（即文档）上的文本作为输入，为节点输出文本嵌入向量。

另一方面，GNN 将图和节点特征作为输入，为节点生成节点嵌入向量。随后，在双模态嵌入空间中，我们根据图上不同类型的交互，通过三种对比策略来调整相同或相关节点上的文本和图表示。

在下游测试中，我们对联合预训练的图-文模型进行提示，以进行零样本或少样本分类。对于零样本分类，我们使用手工制作的离散提示和标签文本。对于少样本分类，我们使用连续提示来填充标签文本。特别的是，为了进行提示调整，我们根据图结构的上下文来初始化连续提示嵌入。

▲ 图1：G2P2 的整体框架。（a）在预训练期间，它通过三种对比策略联合训练文本和图形编码器。（b）在测试期间，它执行提示辅助的零样本或少样本分类（图中只显示了少样本分类的提示调整，而零样本推理采用的是简化方案）。

3.2 基于图结构的对比预训练

通过图上的三种交互方式，基于图结构的预训练通过联合训练文本编码器和图编码器来学习双模态嵌入空间。

双编码器

文本编码器是一个 Transformer，我们将其命名为，给定文档，文本编码器输出的维嵌入向量，表示为

同时，文档也是图中的节点。我们选择一种名为图卷积网络（GCN）的经典 GNN 作为图编码器，用表示。同样，它也会输出给定节点的嵌入向量。

文本-节点交互

基于图的文本自然意味着节点和文本之间的双射关系，其中每个文档对应图中的节点。受图像和标题文本配对以及内容和节点序列映射的启发，我们设计了一种预训练策略来预测哪个文本文档与图中的哪个节点相匹配。具体来说，给定个文档和相应的个节点，有个可能的文档-节点配对。

其中，只有的对是真匹配，而其余的对是假匹配。作为我们的第一个对比策略，我们利用图上文本和节点之间的双向互动，最大化匹配对的余弦相似度，同时最小化不匹配对的余弦相似度。为了计算对的余弦相似度，我们首先对嵌入矩阵和进行行向 L2 归一化，分别得到和。然后，我们计算节点-文本相似性矩阵，以捕捉成对的余弦相似性，如下所示。

其中，𝜏 是一个可训练的温度参数，用于缩放相似度值。为了计算基于文本-节点双向交互的对比度损失，我们采用了 multi-class N-pair loss，同时考虑了行和列的交叉熵损失。例如，的第行表示节点与每个文档之间的相似性得分，其中行索引表示与真实匹配的文档。

其中，是对比训练的标签向量，CE 表示以行为单位应用于输入矩阵或的交叉熵损失。

文本-摘要交互

除了文本-节点的双射交互，我们还进一步利用了图上的高阶交互。特别是，每个文档都有一组由图拓扑定义的相邻文档。鉴于目标文档之间的语义关联性，相邻文档可以理解为目标文档的摘要。例如，在电子商务网络中，用户购买的产品自然就是该用户的摘要，反之亦然。在不失一般性的前提下，我们采用简单的均值池法生成如下的摘要嵌入。

因此，作为我们的第二种对比策略，我们根据图邻域中文本与摘要之间的交互关系，将每篇文档的文本嵌入与其对应的摘要文本嵌入对齐。

节点-摘要交互

基于邻域的文档摘要也是对节点的语义描述。与文本和摘要的交互一样，作为我们的第三种对比策略，我们试图使节点嵌入和基于邻域的摘要文本嵌入保持一致。

总的预训练目标

最后，我们整合了基于文本-节点、文本-摘要和节点-摘要交互的三种对比损失。我们会得到一个预训练模型，该模型由双重编码器的参数组成，通过如下公式获得

3.3 提示图-文联合模式

零样本分类

对于 -way zero-shot 分类，我们预测标签文本嵌入与节点嵌入相似度最高的类别，如图 2 所示，

▲ 图2：零样本分类示意图。预训练模型和由图 1（a）得到。

具体来说，分类权重可由文本编码器根据类别标签文本生成。具体来说，类的权重向量是预训练文本编码器的输出，如下公式所示。

这里的 “prompt [CLASS]” 是提示模板，其中 “[CLASS]” 指的是目标类别 y 的标签文本（例如，论文领域分类中的 “NLP”），“prompt” 是自然语言 token 序列。然后，给定节点表示的类别分布预测为

其中为余弦相似度。

少样本分类

离散提示的问题在于，由于 PLM 本身是连续的，因此很难对其进行优化。因此，我们采用了提示调整技术。它用可学习的连续提示语取代了离散的自然语言提示语，同时仍保持主干 PLM 的参数不变。也就是说，我们不再使用离散标记序列，而是使用连续嵌入序列作为提示。连续提示作为输入送到文本编码器，为每个类别生成分类权重：