Sigir2024 ranking相关论文速读seo优化

Sigir2024 ranking相关论文速读

news/2024/10/5 7:17:13

简单浏览一下Sigir2024中与ranking相关的论文。不得不说，自从LLM大热后，传统的LTR方向的论文是越来越少了，目前不少都是RAG或类似场景下的工作了，比如查询改写、rerank等。

The Surprising Effectiveness of Rankers Trained on Expanded Queries
Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers?
Unbiased Learning to Rank Meets Reality: Lessons from Baidu’s Large-Scale Search Dataset
Multi-granular Adversarial Attacks against Black-box Neural Ranking Models

The Surprising Effectiveness of Rankers Trained on Expanded Queries

对query进行改写和两个模型进行排序。大致流程：

基于LLM和相关的文档对query进行改写，丰富长尾query的信息。
- 改写时需要筛选文档中与query相关的句子。
针对长尾query，在扩充后的query上训练一个专门的排序模型；
一共有两个排序模型，分别是针对简单query的Base Ranker和困难query的Specialized Ranker。以及一个判断query是否为困难query的模型。计算文档最终的得分时，先计算query为困难query的概率，再用两个排序模型计算得分并加权作为最终得分。

Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers?

query改写在检索阶段的作用很明显，其对交互式编码器的影响几何呢？已有的一些工作表明查询扩展对弱一些的排序模型效果更好，对强的则可能有害。如何应用查询扩展才能使其提升排序模型的能力呢，论文给出了两个关键的步骤：

高质量的关键词生成。排序更关注准确性（与检索不同），因此对查询扩展的精确性要求更高，避免扩展出现语义漂移的问题。文中的做法：通过LLM生成关键词，并通过self-consistency进行筛选（简言之：生成多次，取出现频率高的）。
- 这个确实很重要。排序阶段应该尽量保持原始查询的精确性，避免改写过于发散。
最小化查询扩展的破坏性。如何将生成的关键词插入到查询中，以最小化插入后的语义漂移。实验表明，即使直插入3个关键词在原始查询的末尾也会导致精度退化。文中的做法：每个关键词分别与原查询拼接后，各自进行排序，再进行融合。

Unbiased Learning to Rank Meets Reality: Lessons from Baidu’s Large-Scale Search Dataset

终于看到一篇传统的LTR论文，自从LLM大热，传统LTR论文是少之又少了啊。（虽然感觉这篇论文有点水）

这篇论文主要基于Baidu-ULTR数据集（由WSDM Cup 2023发布），通过实验分析了目前的主流ULTR方法能否真的提升ULTR效果。论文中主要考虑了位置偏差，直接看结论：

在该数据集上（后续同理），ULTR方法的提升甚微；
语言模型的训练对ULTR方法敏感；
ULTR或许能提高点击，但可能与人工标注不一致。

Multi-granular Adversarial Attacks against Black-box Neural Ranking Models

这篇论文主要提出了一种对文档添加不同粒度的扰动，来提高文本排序模型的鲁棒性。论文将添加不同粒度的扰动看作一个序列决策的问题，以强化学习的方式构建扰动直至最优的扰动，过程：

准备好一个代理排序模型，评估文档的相关性，一个LLM，评估文本的流畅度；
多粒度攻击者由两部分组成：sub-agent通过代理排序模型识别文档中脆弱的攻击位置和扰动粒度，meta-agent负责生成实际的扰动。
最终的目标：最大化扰动后文本的相关性以及流畅度。

文中比较关键的是基于强化学习的多粒度攻击者，主要是攻击位置的识别。这个论文有点意思，或许可以用到提升训练数据质量上。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.ryyt.cn/news/44058.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈，一经查实，立即删除！

相关文章

设计模式-组合模式

设计模式-组合模式

组合模式组合模式，也称为整体部分模式，他的宗旨是通过将单个对象（叶子节点）和组合对象（树枝节点）用相同的接口进行表示，使得客户对单个对象和组合对象的使用具有一致性。（树形结构）组合与聚合的关系：组合生命周期保持一致。聚合具有不同的生命周期。角色：抽象根节…

阅读更多...

iptables笔记

iptables笔记

摘要四链五表4表：filter表，作用是过滤某些包，这是防火墙工作的基础, 例如：云厂商的安全组实现一般不带 -t 参数，则默认使用filter表 nat表，作用是实现网络地址转换 raw, 作用是将命中规则的包，跳过其它表的处理，它的优先级最高。 mangle, 作用是根据规则修改数据包的…

阅读更多...

2024wf中考数学难题tj

2024wf中考数学难题tj

睿频：中考量太大，太折磨人了。凭记忆口胡。多选最后一个：条件：AE//GC,EF垂直平分线。平行+垂直平分线，A证弧其实就是证角，D证菱形也差不多。 \(A\)：弧DA = 弧AG 。证：$\Delta AEH \cong \Delta EHC $ , 平行加等腰，直接ac平分角，o。 \(D\):证\(AEFC\)菱形。俩垂直…

阅读更多...

Oracle 性能调优 10053事件

Oracle 性能调优 10053事件

思维导图10053事件概述我们在查看一条SQL语句的执行计划时，只看到了CBO最终告诉我们的执行计划结果，但是我们并不知道CBO为何要这样做。特别是当执行计划明显失真时，我们特别想搞清楚为什么CBO会做出这样的一个选择，那么就可以用10053事件来分析SQL分析过程的trace文件。…

阅读更多...

ZooKeeper源码解读

ZooKeeper源码解读

ZooKeeper源码分析 1. 服务器构成群首（leader），追随者（follower），观察者（observer）本质上都是服务器。在实现服务器主要抽象概念是请求处理器。请求处理器是对处理流水线上不同阶段的抽象，每个服务器实现一个请求处理器的序列。 zookeeper服务端有两种模式：单机的独…

阅读更多...

当我在焦虑的时候我在思考些啥-我是如何理解人生的

当我在焦虑的时候我在思考些啥-我是如何理解人生的

1. 前言本文主要记录下笔者对于人生的思考，仅一家之言，可能会有很多经不起推敲的逻辑，如果你因此被本文误导了，笔者概不负责（狗头保命～） BTW，起个啥标题好呢，副标题又该取啥好呢，起名困难症犯了，纠结啊。。。2. 为什么突然思考起人生这个话题 2.1. 原因一：与其焦虑…

阅读更多...

ajax跨域解决方案

ajax跨域解决方案

1.何为跨域AJAX跨域问题是指浏览器出于安全考虑，限制了一个源（域名、协议、端口）的脚本与另一个源的资源进行交互。通俗的说，当前页面的域名、协议、端口必须与ajax访问地址一致，才能正常通信，否则会造成跨域2.解决方案浏览器开放限制：浏览器下载插件（Access-Control-A…

阅读更多...

ZooKeeper漫谈

ZooKeeper漫谈

ZooKeeper漫谈 1.什么是Zookeeper Zookeeper 是一个分布式协调服务的开源框架。主要作用是为分布式系统提供协调服务，包括但不限于：分布式锁、统一命名服务、配置管理、负载均衡、主控服务器选举以及主从切换等。 ZooKeeper本质上是一个分布式的小文件存储系统。提供类似与文…

阅读更多...

推荐文章

最新文章