​SIGIR 2023 | 基于图的预训练和提示来增强低资源文本分类

news/2024/7/5 3:09:45

4bf9d62829256ea0cbc1d479a6049637.gif

©PaperWeekly 原创 · 作者 | Zhihao Wen

单位 | 新加坡管理大学

研究方向 | 图神经网络,文本分类

5bb4f3c653bdfe4cbf7c5362815dff3f.png

摘要

本文由来自新加坡管理大学的作者提出了一种基于图的预训练和提示来增强低资源文本分类的方法 G2P2。

4a7cf3c676c2419dc6c792dcd058423c.png

论文标题:

Augmenting Low-Resource Text Classification with Graph-Grounded Pre-training and Prompting

论文地址:

https://dl.acm.org/doi/pdf/10.1145/3539618.3591641

文本分类是信息检索中的一个基本问题,在现实世界中有许多应用,例如预测在线文章的主题和电子商务产品描述的类别。然而,低资源文本分类由于标注样本较少或没有标注样本,给监督学习带来了严重的问题。同时,许多文本数据本身就基于网络结构,如在线文章的超链接/引用网络和电子商务产品的用户-物品购买网络。这些图结构捕捉了丰富的语义关系,有可能增强低资源文本分类。

在本文中,我们提出了一种名为 “基于图的预训练和提示”(Graph-Grounded Pre-training and Prompting,G2P2)的新型模型,以双管齐下的方式解决低资源文本分类问题。在预训练过程中,我们提出了三种基于图交互的对比策略,以联合预训练图-文本模型;在下游分类过程中,我们探索了对联合预训练模型的提示,以实现低资源分类。在四个真实世界数据集上的广泛实验证明了 G2P2 在零资源和少量资源文本分类任务中的优势。

4617c924e0ebae43b5258a175a6e4f7a.png

简介

文本分类是一个基础研究问题,在信息检索中有许多重要应用。例如,预测在线文章的主题可以帮助读者轻松地在网站或门户网站内进行搜索和导航;对电子商务商品描述的类别进行分类可以帮助企业有效地组织库存,改善用户的搜索体验。

近十年来,有监督深度学习在文本分类方面取得了显著的进步,尤其是在有大规模和高质量标签数据的情况下。然而,数据标注通常成本高、耗时长,因此,在没有或仅有少量标注样本的情况下,低资源分类成为一种有吸引力的替代方法。

要解决低资源文本分类问题,一种方法是利用预先训练好的语言模型(PLM)。通过微调模型参数以达到特定任务的目标,PLM 可以适应不同的任务。与传统的监督学习相比,“预训练、微调”模式所需的标注数据更少,但它有两个缺点。

首先,最先进的 PLM 通常具有巨大的模型规模,例如,GPT-3 有 1750 亿个参数,这使得微调的成本过高。其次,由于预训练和微调目标之间的差距,微调仍然需要合理数量的标注数据,因此在低资源场景(包括零和少量分类)下很难实现。为了克服预训练和微调的问题,有人提出了提示法。它使用自然语言指令或 "提示 "来提示下游任务,同时冻结大型 PLM 的参数。

与此同时,文本数据经常以网络结构为基础,这些网络结构揭示了文章或项目之间的重要关系,可用于增强低资源文本分类。现有的 PLM 和提示并不能利用这些关系,而图神经网络(GNN)是基于消息传递架构设计的,可以从图结构中学习。然而,传统的端到端 GNN 训练严重依赖于丰富的特定任务标签。

这就激发了 GNN 在无标签图上采用精心设计的前置任务来进行自监督学习来抽取知识,以使得减少对标签的依赖。遗憾的是,GNN 对文本特征的处理仍然很初级。通常情况下,简单的词袋表示或浅层词嵌入向量的聚合被输入到 GNN 中作为初始节点特征,然后再沿着图结构进一步传播。因此,GNN 对文本的建模是粗粒度的,无法完全捕捉文本中细微的语义差异和相似性。

2.1 面临的挑战和提出的工作

为了克服现有基于文本和图的解决方案的局限性,我们必须解决以下两个开放性问题。

首先,我们如何捕捉细粒度的文本语义,同时联合利用图结构信息?一种简单的方法是使用语言模型从原始文本作为输入生成特征,然后训练 GNN。然而,这样一来,文本和图只是松散地耦合在一起,缺乏明确的配对来相互补充。在本文中,我们提出了以图为基础的对比预训练,根据文本-节点、文本-摘要和节点-摘要三种图的交互,最大限度地提高文本和图表征之间的一致性。

其次,在联合预训练图-文模型的情况下,我们如何增强低资源文本分类?我们提出了一种新方法,即 “提示” 联合预训练的图-文模型,而不是对其进行微调。这样,我们就能利用预训练模型中最相关的结构和语义信息,使该过程更适合低资源场景。

更具体地说,我们将手工制作的离散提示用于零样本分类,将连续提示用于基于自动提示调整的少样本设置。由于涉及的参数少得多,提示调整比对预训练模型进行微调更节省标签和计算。此外,我们还提出了一种基于上下文的提示调整初始化方法,该方法考虑了文本之间的图结构,从而提供了一个信息量更大的训练起点。

bd119939fd527bddfe8b136479e3a900.png

方法

3.1 G2P2 概述

如图 1 所示,我们的模型包括两个阶段:(a)基于图的恒定预训练;(b)用于低资源分类的基于图的及时调整。

在预训练期间,我们通过以自我监督的方式联合训练文本编码器和图编码器来学习双模态嵌入空间,因为文档也是图上的一个节点。更具体地说,我们使用基于转换器的文本编码器和基于 GNN 的图编码器。转换器将每个节点(即文档)上的文本作为输入,为节点 输出文本嵌入向量 。

另一方面,GNN 将图和节点特征作为输入,为节点 生成节点嵌入向量 。随后,在双模态嵌入空间中,我们根据图上不同类型的交互,通过三种对比策略来调整相同或相关节点上的文本和图表示。

在下游测试中,我们对联合预训练的图-文模型进行提示,以进行零样本或少样本分类。对于零样本分类,我们使用手工制作的离散提示和标签文本。对于少样本分类,我们使用连续提示来填充标签文本。特别的是,为了进行提示调整,我们根据图结构的上下文来初始化连续提示嵌入。

e1c558d17796215433865c7d1f1460ec.png

▲ 图1:G2P2 的整体框架。(a)在预训练期间,它通过三种对比策略联合训练文本和图形编码器。(b)在测试期间,它执行提示辅助的零样本或少样本分类(图中只显示了少样本分类的提示调整,而零样本推理采用的是简化方案)。

3.2 基于图结构的对比预训练

通过图上的三种交互方式, 基于图结构的预训练通过联合训练文本编码器和图编码器来学习双模态嵌入空间。

双编码器

文本编码器是一个 Transformer,我们将其命名为 ,给定文档 ,文本编码器输出 的 维嵌入向量,表示为

762474ef4653526bf8c09487e952fb54.png

同时,文档 也是图中的节点 。我们选择一种名为图卷积网络(GCN)的经典 GNN 作为图编码器,用 表示。同样,它也会输出给定节点 的嵌入向量 。

e3d502ae6f68ef0356e4bf18cc6dbded.png

文本-节点交互

基于图的文本自然意味着节点和文本之间的双射关系,其中每个文档 对应图中的节点 。受图像和标题文本配对以及内容和节点序列映射的启发,我们设计了一种预训练策略来预测哪个文本文档与图中的哪个节点相匹配。具体来说,给定 个文档和相应的 个节点,有 个可能的文档-节点配对。

其中,只有 的 对是真匹配,而其余的 对是假匹配。作为我们的第一个对比策略,我们利用图上文本和节点之间的双向互动,最大化 匹配对的余弦相似度,同时最小化 不匹配对的余弦相似度。为了计算 对的余弦相似度,我们首先对嵌入矩阵 和 进行行向 L2 归一化,分别得到 和 。然后,我们计算节点-文本相似性矩阵 ,以捕捉成对的余弦相似性,如下所示。

4f54011c84cc827876efc02f569fd462.png

其中,𝜏 是一个可训练的温度参数,用于缩放相似度值。为了计算基于文本-节点双向交互的对比度损失,我们采用了 multi-class N-pair loss,同时考虑了行和列的交叉熵损失。例如, 的第 行表示节点 与每个文档之间的相似性得分,其中行索引 表示与 真实匹配的文档 。

bf638daa5bc429ea2bc746c58864dee3.png

其中, 是对比训练的标签向量,CE 表示以行为单位应用于输入矩阵 或 的交叉熵损失。

文本-摘要交互

除了文本-节点的双射交互,我们还进一步利用了图上的高阶交互。特别是,每个文档都有一组由图拓扑定义的相邻文档。鉴于目标文档之间的语义关联性,相邻文档可以理解为目标文档的摘要。例如,在电子商务网络中,用户购买的产品自然就是该用户的摘要,反之亦然。在不失一般性的前提下,我们采用简单的均值池法生成如下的摘要嵌入 。

7f17b94427c6ff0c2d105708c99b4d49.png

因此,作为我们的第二种对比策略,我们根据图邻域中文本与摘要之间的交互关系,将每篇文档的文本嵌入与其对应的摘要文本嵌入对齐。

8bab28d3749a40e1d6fc9987f0607996.png

7ce70f7c1b95021f77316c2853ff4da8.png

节点-摘要交互

基于邻域的文档摘要 也是对节点 的语义描述。与文本和摘要的交互一样,作为我们的第三种对比策略,我们试图使节点嵌入和基于邻域的摘要文本嵌入保持一致。

d9a961073069b962175ab9e7f7af699a.png

960dd36ba7292a1bc3bf8b98e6a67027.png

总的预训练目标

最后,我们整合了基于文本-节点、文本-摘要和节点-摘要交互的三种对比损失。我们会得到一个预训练模型 ,该模型由双重编码器的参数组成,通过如下公式获得

66b7c878c56316cd0f2a2029ebf54a0b.png

3.3 提示图-文联合模式

零样本分类

对于 -way zero-shot 分类,我们预测标签文本嵌入与节点嵌入相似度最高的类别,如图 2 所示,

eab03d12196eb3fb18cd1271287f81d1.png

▲ 图2:零样本分类示意图。预训练模型 和 由图 1(a)得到。

具体来说,分类权重可由文本编码器根据类别标签文本生成。具体来说, 类的权重向量 是预训练文本编码器的输出,如下公式所示。

7e5518ac7fab184659448bd6fa1fb954.png

这里的 “prompt [CLASS]” 是提示模板,其中 “[CLASS]” 指的是目标类别 y 的标签文本(例如,论文领域分类中的 “NLP”),“prompt” 是自然语言 token 序列。然后,给定节点表示 的类别分布预测为

408b9dc397e171145084345e530d6c25.png

其中 为余弦相似度。

少样本分类

离散提示的问题在于,由于 PLM 本身是连续的,因此很难对其进行优化。因此,我们采用了提示调整技术。它用可学习的连续提示语取代了离散的自然语言提示语,同时仍保持主干 PLM 的参数不变。也就是说,我们不再使用离散标记序列,而是使用连续嵌入序列作为提示。连续提示作为输入送到文本编码器,为每个类别 生成分类权重:

9808d8869e25789986ddb76bfba1c565.png

为了充分利用图结构的优势,我们提出了以图为基础的提示调整方法,用图上下文来初始化提示嵌入。节点 及其邻居  统称为 的图上下文。

eaf76b5543a7f9cf0748786632f03c88.png

1086f9b61c47488628a9ac5c7305c6fd.png

实验结果

90cfaa6f0e92b8da619b0dc0793e82b8.png

▲ 表1:95% 置信区间下的 Five-shot 性能(百分比)。在每一列中,所有方法中的最佳结果用粗体表示,基线中的最佳结果用下划线表示。G2P2 的改进是相对于最佳基线计算的。 表示根据双尾 检验 ,我们的模型明显优于最佳基线。

3fa0a5229eeea0a4245de0f817c3c78f.png

▲ 表2:零样本分类准确率(百分比)。相关样式说明见表 1。可以看出,我们的模型 G2P2 和 G2P2+d 的表现明显优于基线模型,这证明了我们的基于图的对比预训练在零样本设置下的有效性。

a7ed220ac3f978d903a234d65450d69f.png

结语

主要贡献:1)解决了低资源文本分类的问题;2)提出了 G2P2,包括预训练中的三种基于图交互的对比策略,以及下游分类中联合预训练的图-文模型的提示机制。

局限性:1)需要图结构;2)无法在零样本设置下进行 prompt tuning。

更多阅读

2f1f7a951662b78d87247c9967ec9808.png

08842b4a66988cbb9c4c2dacc75a2dfe.png

fdffa46f45691824f8d3b4e1e8e18e3d.png

f66169cbb61c65cdfa087b1980dba62c.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

6f30348a24d3cf0c0c6e63b9fe0ca624.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

322df1cbc41d82903a08eb2f49e2583d.jpeg


http://lihuaxi.xjx100.cn/news/1453689.html

相关文章

6.1 C++ STL 序列映射容器

Map/Multimap 映射容器属于关联容器,它的每个键对应着每个值,容器的数据结构同样采用红黑树进行管理,插入的键不允许重复,但值是可以重复的,如果使用Multimap声明映射容器,则同样可以插入相同的键值。 Map…

飞控相关的专业名词、参数的释义和缩写

专业名词释义,参数缩写 gimbal 云台,万向接头failsafe 故障保护Collective: 总距Swashplate : 倾斜盘SW: Swashplate 倾斜盘RSC: Rotor Speed ControlRC: Radio Channel 无线通道DDFP&#xff…

C#如何获取当前主机的IP地址

文章目录 解决方案获取主机名获取IP地址过滤IPv4地址 函数函数调用 解决方案 获取主机名 Dns 类提供了一组用于域名系统 (DNS) 操作的静态方法。 Dns.GetHostName();我们可以使用Dns.GetHostName()方法来获取本地计算机的主机名, 这是一个静态方法。该方法调用操…

08 - 网络通信优化之IO模型:如何解决高并发下IO瓶颈?

提到 Java I/O,相信你一定不陌生。你可能使用 I/O 操作读写文件,也可能使用它实现 Socket 的信息传输…这些都是我们在系统中最常遇到的和 I/O 有关的操作。 我们都知道,I/O 的速度要比内存速度慢,尤其是在现在这个大数据时代背景…

SIP网络音频模块SV-2401V网络对讲音频模块(支持POE)

功能和特点 音频工作方式: 音频解码:即音频播放。接收来自网络的音频流,经过模块解码后通过线路输出高质量音频信号。目前支持可以播放以下音频格式:MP3、WAV (PCM IMA ADPCM)、G.711、G.722等,可以播放最高48k采样率…

Mysql安装配置教程(超详细)(C盘、D盘均可安装)

Mysql安装配置教程(超详细)(C盘、D盘均可安装) mysql安装配置教程(超详细)(C盘、D盘均可安装)0x1 官网下载Mysql下载 0x2 选择安装模式0x3 Developer Default (C盘安装&a…

[MySQL] — 数据类型和表的约束

目录 数据类型 数据类型分类 数值类型 tinyint类型 bit类型 小数类型 float decimal 字符串类型 char varchar char和varchar的区别 日期和时间类型 enum 和 set 表的约束 空属性 默认值 列描述 zeorfill 主键 创建表时在字段上指定主键 删除主键: 追…

100道python练习题(九)

请看以下第81到90题的代码示例: 编写一个程序,判断一个字符串是否是回文字符串。 def is_palindrome(string):string string.lower() # 忽略大小写clean_string .join(filter(str.isalnum, string)) # 去除非字母数字字符return clean_string cle…