​港中文提出CLongEval中文基准测试集,准确评估大模型长上下文能力

news/2024/7/7 22:15:36

9e9fd1e3534398157cb58c5ba89a1a30.gif

68c18d4781bc6c69b10c1245e44d3bf2.png

论文题目:

ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

论文地址:

https://arxiv.org/abs/2403.03514

代码地址:

https://github.com/zexuanqiu/CLongEval

76096a790a5d723cea708dcb311c742a.png

研究背景和贡献

为了使 LLM 能够支持更复杂和多样化的应用,越来越多的研究致力于扩展 LLM 能够处理的上下文窗口。为了评估这些 long context LLM 支持长上下文能力,目前英文领域有几个数据集被提出(如 LongBench, L-Eval, LooGLE)。

然而,在中文领域,对于 long context LLM 能力评估的研究还有些滞后。目前只有一个双语基准 LongBench 可用,中文部分仅有平均长度约 13K 个字符的 1000 个测试实例。基于中文领域缺乏高质量评估数据集的现状,这篇论文提出了一个基准测试集,以准确评估 LLM 在中文领域的长文本上下文处理能力。

6847102eb53939649e0341631c3d8ece.png

论文提出了 CLongEval,一个包含了 7 种 NLP 任务、覆盖 4 个能力维度的中文长文本能力测试集。以确保对模型能力的综合评估,作者首先对 LLM 处理长文本所需的关键能力进行了拆解。

如下图所示的框架,基于于人类自身解决问题的范式,作者将 LLM 在解决长上下文任务时所用的基础能力分解为:1)在部分上下文(Partial Context)或者全部上下文(Full Context)中识别和获取关键信息的能力;2)基于获取的全部信息,以抽取式(Extractive)或者抽象式(Abstractive)推理出答案的能力。

在这些基础能力的维度上,作者构建了了 CLongEval 基准测试集。该测试集包含了 7 个任务共 7,267 个测试样本,包括长篇故事问答(Long Story QA)、长对话记忆(Long Conversation Memory)、长篇故事摘要(Long Story Summarization)、新闻标注(Stacked News Labeling)、错别字检测(Stacked Typo Detection)、段落检索(Key-Passage Retrieval)和表格查询(Table Querying)。

其中,长篇故事问答和长对话记忆均为全新标注的数据。长篇故事摘要由 GPT-4 进行辅助标注。其余 4 个任务由公共数据集重构得来。

由于目前 LLM 支持的文本长度窗口(context window)差异较大,为了确保基准测试集的适用性,CLongEval 按照输入文本的长度构建了三个子集:small set、medium set 和 large set。small set 主要包括长度在 1K 到 16K 个 token 之间的测试数据,medium set 是 16K 到 50K 个 token 之间,而 large set 包含的数据扩展到 50K 到 100K 个 token。下表展示了数据集的具体统计信息。

48902f953a6b6734fe6d2493fb692408.png

b7c5a0b86ac7614356bafb3c4dc1b845.png

数据集构建

以下是 CLongEval 包含的测试任务。每个任务针对测试一种上文提到的基础能力。

  • 长篇故事问答: 该任务要求模型根据长篇故事中的部分上下文来回答问题,考察模型能否利用部分上下文信息进行阅读理解。模型需要在输入中找到有关的上下文并进行抽象推理来得到正确答案。作者在 153 本中国叙事小说中提取了 200 个不重复的故事,并根据故事长度分配了相应数量的问题。最终共标注了约 1K 个问答对。

  • 长对话记忆:这个任务旨在评估模型的长期记忆能力,考察模型能否利用部分上下文信息进行阅读理解。该任务的输入为用户和伴侣聊天机器人之间连续多天的对话记录,模型需要准确地回答关于特定日期对话内容相关的问题。数据包含 80 个虚拟用户和伴侣聊天机器人之间的 140 天对话记录,和人工标注的约 1K 个问答对。

  • 长篇故事摘要:作为自然语言处理的经典任务,摘要生成需要模型能够正确理解完整的长上下文并进行信息整合。作者首先将 BOOKSUM 数据集翻译成了中文,之后使用 GPT-4 辅助将 BOOKSUM 数据集中每个片段的摘要整合成总摘要。该任务包含 1K 个测试样例。

  • 新闻标注:该测试任务要求模型能对输入的新闻做正确的分类。目标是评估语言模型能否理解完整的输入,并进行信息抽取。每个样例的输入包含多篇新闻以及对应的索引,输出是对每篇新闻的类别标签。该任务包含约 1K 个测试样例。

  • 错别字检测:该任务要求模型识别出长篇输入中存在的所有拼写错误。目标是评估语言模型能否理解完整的输入,并进行信息抽取。错别字构造来自于日常打字常见错误类型:同音错字。错字的数量和输入的长度成正比:small set 为 10 个错字,medium set 为 20 个错字,large set 为 30 个错字。该任务包含约 1K 个测试样例。

  • 段落检索:该任务是为了考察模型在长上下文中抽取所需信息的能力,尤其是准确返回复杂搜索结果的能力。数据集中每个样例都是一个被序列化为字符串的 JSON 对象,其中包含多个键-段落(key-passage)对。这个任务和常见的键-值检索任务类似,区别在于这里检索对象是具有实际语义的自然语言文本,而不是随机生成的 128 位 UUID 字符串,因此更具有挑战性。该任务包含约 1K 个测试样例。

  • 表格查询:该任务是为了考察模型在长上下文中抽取所需信息的能力,尤其是在长上下文中执行复杂查询的能力。数据集中每个样例由多个使用 Markdown 格式排列的表格组成;期待模型可以在长上下文中定位到目标表格,并根据查询条件从该表格中得到输出。该任务包含约 1K 个测试样例。

1144d4de66d84bd1901c31d8e258bf6a.png

实验结果

下表为主实验结果,展示了 6 个开源模型和 2 个闭源模型(GPT-4-Turbo 和 Moonshot-v1)在 CLongEval 上的表现。

7eace08ca07d6d89688107bced4d8f8a.png

作者分析了参考答案在上下文中的对应位置对模型性能的影响,结果如下图所示。作者在需要部分上下文的四个任务上进行实验,发现在长篇故事问答和长对话记忆这两个任务中,“Lost in the middle” 这一现象较为明显。

4e7233dd1b4e3519c105f4c015971216.png

下面的两张图展示了 GPT-4-Turbo 与 Moonshot-v1 在新闻标注这个任务中不同位置与不同深度的分类准确率的可视化分析。可以发现,Moonshot-v1 的表现更加稳定。

15408967f6b114c0970c2abecb5e6bce.png

c020687c2568a830a08641e8d9ebf8f0.png

更多实验结果以及分析请参考原文。

更多阅读

7a41082c51bf146041b0bad64efdeede.png

a979d6b150b075c0dad042b6722d4f69.png

f5aa79ec0f3b41205e192415d3668091.png

9006b4618e24f9b703991b9e59d2e4c3.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

a219e4f2f60acbb25c27061401c2e83e.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

aea6a0808d6778d445773d84e1bfecb2.jpeg


http://lihuaxi.xjx100.cn/news/2139516.html

相关文章

Chatgpt掘金之旅—有爱AI商业实战篇|文案写作|(三)

演示站点: https://ai.uaai.cn 对话模块 官方论坛: www.jingyuai.com 京娱AI 一、前言 人工智能(AI)技术作为当今科技创新的前沿领域,为创业者提供了广阔的机会和挑战。随着AI技术的快速发展和应用领域的不断拓展&…

学习java第三十天

Spring容器扩展机制 IoC容器负责管理容器中所有bean的生命周期,而在bean生命周期的不同阶段,Spring提供了不同的扩展点来改变bean的命运。在容器的启动阶段,BeanFactoryPostProcessor允许我们在容器实例化相应对象之前,对注册到容…

柔性数组详细讲解

动态内存函数的使用和综合实践-malloc,free,realloc,calloc-CSDN博客https://blog.csdn.net/Jason_from_China/article/details/137075045 柔性数组存在的意义 柔性数组在编程语言中指的是可以动态调整大小的数组。相比固定大小的数组&#…

vue3-创建一个vue3项目

一、环境准备 1、安装 node.js 下载地址:Node.js 2、检查是否安装成功:输出版本号说明X安装成功 注意:如果已经安装,未显示,可能是环境变量没配置 二、搭建 vue 环境 1、全局安装脚手架 vue-cli 在命令行输入&am…

Vision-Language Models for Vision Tasks: A Survey

论文地址:https://arxiv.org/pdf/2304.00685.pdf 项目地址:https://github.com/jingyi0000/VLM_survey 一、综述动机 视觉语言模型,如CLIP,以其独特的训练方式显著简化了视觉识别任务的流程。它减少了对大量精细标注数据的依赖&a…

HarmonyOS 应用开发之Worker

Worker主要作用是为应用程序提供一个多线程的运行环境,可满足应用程序在执行过程中与主线程分离,在后台线程中运行一个脚本操作耗时操作,极大避免类似于计算密集型或高延迟的任务阻塞主线程的运行。 Worker运作机制 图1 Worker运作机制示意…

【数据结构】你知道波兰表达式和逆波兰表达式吗?我才知道原来栈在表达式求值中还能这样使用……

栈在表达式求值中的应用 导读一、表达式的形式二、波兰表达式与逆波兰表达式三、表达式之间的相互转换四、栈实现波兰表达式4.1 问题分析4.2 问题完善4.3 算法实现4.3.1 获取波兰表达式4.3.2 从右往左扫描表达式4.3.3 遇到操作数进行入栈操作4.3.4 遇到操作符进行对应操作4.3.5…

【授时防火墙】GPS北斗卫星授时信号安全防护装置系统

【授时防火墙】GPS北斗卫星授时信号安全防护装置系统 【授时防火墙】GPS北斗卫星授时信号安全防护装置系统 1、装置概述 卫星信号安全防护装置(以下简称“防护装置”)是一款专门针对卫星导航授时安全的设备。该设备能接收 BD 系统和 GPS 系统卫星信号&am…