Sigir2024 ranking相关论文速读

news/2024/7/7 19:07:59

简单浏览一下Sigir2024中与ranking相关的论文。不得不说,自从LLM大热后,传统的LTR方向的论文是越来越少了,目前不少都是RAG或类似场景下的工作了,比如查询改写、rerank等。

文章目录

      • The Surprising Effectiveness of Rankers Trained on Expanded Queries
      • Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers?
      • Unbiased Learning to Rank Meets Reality: Lessons from Baidu’s Large-Scale Search Dataset
      • Multi-granular Adversarial Attacks against Black-box Neural Ranking Models

The Surprising Effectiveness of Rankers Trained on Expanded Queries

对query进行改写和两个模型进行排序。大致流程:

  1. 基于LLM和相关的文档对query进行改写,丰富长尾query的信息。
    • 改写时需要筛选文档中与query相关的句子。
  2. 针对长尾query,在扩充后的query上训练一个专门的排序模型;
  3. 一共有两个排序模型,分别是针对简单query的Base Ranker和困难query的Specialized Ranker。以及一个判断query是否为困难query的模型。计算文档最终的得分时,先计算query为困难query的概率,再用两个排序模型计算得分并加权作为最终得分。

Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers?

query改写在检索阶段的作用很明显,其对交互式编码器的影响几何呢?已有的一些工作表明查询扩展对弱一些的排序模型效果更好,对强的则可能有害。如何应用查询扩展才能使其提升排序模型的能力呢,论文给出了两个关键的步骤:

  1. 高质量的关键词生成。排序更关注准确性(与检索不同),因此对查询扩展的精确性要求更高,避免扩展出现语义漂移的问题。文中的做法:通过LLM生成关键词,并通过self-consistency进行筛选(简言之:生成多次,取出现频率高的)。

    • 这个确实很重要。排序阶段应该尽量保持原始查询的精确性,避免改写过于发散。
  2. 最小化查询扩展的破坏性。如何将生成的关键词插入到查询中,以最小化插入后的语义漂移。实验表明,即使直插入3个关键词在原始查询的末尾也会导致精度退化。文中的做法:每个关键词分别与原查询拼接后,各自进行排序,再进行融合。

Unbiased Learning to Rank Meets Reality: Lessons from Baidu’s Large-Scale Search Dataset

终于看到一篇传统的LTR论文,自从LLM大热,传统LTR论文是少之又少了啊。(虽然感觉这篇论文有点水)

这篇论文主要基于Baidu-ULTR数据集(由WSDM Cup 2023发布),通过实验分析了目前的主流ULTR方法能否真的提升ULTR效果。论文中主要考虑了位置偏差,直接看结论:

  • 在该数据集上(后续同理),ULTR方法的提升甚微;
  • 语言模型的训练对ULTR方法敏感;
  • ULTR或许能提高点击,但可能与人工标注不一致。

Multi-granular Adversarial Attacks against Black-box Neural Ranking Models

这篇论文主要提出了一种对文档添加不同粒度的扰动,来提高文本排序模型的鲁棒性。论文将添加不同粒度的扰动看作一个序列决策的问题,以强化学习的方式构建扰动直至最优的扰动,过程:

  1. 准备好一个代理排序模型,评估文档的相关性,一个LLM,评估文本的流畅度;
  2. 多粒度攻击者由两部分组成:sub-agent通过代理排序模型识别文档中脆弱的攻击位置和扰动粒度,meta-agent负责生成实际的扰动。
  3. 最终的目标:最大化扰动后文本的相关性以及流畅度。

文中比较关键的是基于强化学习的多粒度攻击者,主要是攻击位置的识别。这个论文有点意思,或许可以用到提升训练数据质量上。


在这里插入图片描述


http://lihuaxi.xjx100.cn/news/2215470.html

相关文章

局域网内怎么访问另一台电脑?(2种方法)

案例:需要在局域网内远程电脑 “当我使用笔记本电脑时,有时需要获取保存在台式机上的文件,而两者都连接在同一个局域网上。我的台式机使用的是Windows 10企业版,而笔记本电脑则是Windows 10专业版。我想知道是否可以通过网络远程…

python写一个获取竞品信息报告

要编写一个获取竞品信息报告的Python程序,首先需要明确您想要获取的竞品信息以及数据来源。在这个示例中,我将展示如何从网页提取竞品信息,并编写一个简单的报告。 假设您想要获取以下竞品信息: 1. 产品名称 2. 产品价格 3. 产品特…

二、从C语言到C++(二)

二、从C语言到C(二) bool 类型怎么打印 bool 类型的值 强弱类型C语言的类型系统C的类型系统总结 NULL 和 nullptrNULLnullptr示例 起别名使用 typedef使用 using 关键字(C11及以后)注意 void* 万能指针C语言中的 void*C中的 void…

python成员属性特性

python成员属性特性 python成员属性内存特性成员属性的默认值python成员属性的内存会不会导致数据出问题除了基本类型以外其他数据类型没有这个特性在构造函数中给成员属性赋值内存会是怎么样的处理python成员属性特性原因是什么呢?python这种处理有什么坏处呢&…

ByteTrack

1. 论文中伪代码表示的流程图 2. 简要版 此图源自: ByteTrack多目标跟踪原理,白老师人工智能学堂 3. 详细版 根据ByteTrack-CPP-ncnn代码的数据流画的较为详细的流程图: 4. ByteTrack-CPP-ncnn的UML类图 Reference ByteTrack多目标跟踪原…

JS中的延时操作setTimeout()和setInterval()

JS中,给我们提供两种延时操作的内置方法setTimeout()和setInterval()。setTimeout和setInterval方法都是挂载在javascript的window对象下,通过两个参数控制,第一个参数控制运行的表达式或方法,第二个参数表示延时的时间&#xff0…

​​Vitis HLS 学习笔记--添加 RTL 黑盒函数

目录 1. 简介 2. 用法详解 2.1 需要的文件 2.1.1 RTL 函数签名 2.1.2 黑盒 JSON 描述文件 2.1.3 RTL IP 文件 2.2 操作步骤 3. 总结 1. 简介 Vitis HLS 工具可以将现有的 Verilog RTL IP(即硬件描述语言编写的模块)集成到 C/C HLS 项目中。通过…

【CT】LeetCode手撕—20. 有效的括号

题目 原题连接&#xff1a;20. 有效的括号 1- 思路 模式识别 模式1&#xff1a;括号左右匹配 ——> 借助栈来实现 ——> Deque<Character> deque new LinkedList<>()模式2&#xff1a;顺序匹配 ——> 用 if 判断 具体思路 1.遇到左括号 直接入栈相应…