实体 Splade

Splade

PulseAugur coverage of Splade — every cluster mentioning Splade across labs, papers, and developer communities, ranked by signal.

总计 · 30天

11

90 天内 11

发布 · 30天

0

90 天内 0

论文 · 30天

10

90 天内 10

层级分布 · 90 天

主题

情绪 · 30 天

5 天有情绪数据

最近 · 第 1/1 页 · 共 11 条

RESEARCH · CL_131684 · Jul 7 · 00:00

新理论解释晚期交互检索模型，引入 Signed MaxSim

研究人员从理论上量化了晚期交互检索模型的表征能力，特别是那些使用 MaxSim 相似度函数的模型。研究表明，MaxSim 可以精确复制非负稀疏向量之间的内积，并引入了 Signed MaxSim，这是一个能够复制任何实值内积的扩展。这些进展为晚期交互模型的强大实证性能提供了理论基础，并显示了它们在检索任务中超越标准检索方法的潜力，尤其是在涉及否定等复杂查询的任务中。
TOOL · CL_111510 · Jun 24 · 23:07

GPUSparse系统利用GPU并行化加速学习稀疏检索

研究人员开发了GPUSparse，一个旨在通过利用GPU并行化来加速学习稀疏检索模型的新系统。该系统解决了当前稀疏检索方法中存在的CPU瓶颈问题，该问题阻碍了实时性能。GPUSparse引入了GPU并行倒排索引、批处理的scatter-add评分算法以及融合的Triton内核，在保持高检索质量的同时实现了显著的加速。
RESEARCH · CL_105011 · Jun 22 · 00:00

HAKARI-Bench 为检索模型提供轻量级评估 · 跟踪 2 个来源

研究人员推出了 HAKARI-Bench，这是一个轻量级基准，旨在简化检索增强生成和语义搜索的检索架构和效率设置的评估。这个新基准将现有的庞大检索套件重构为更小的数据集，能够对各种检索家族及其效率变体（如降维和量化）进行快速、与模型无关的比较。HAKARI-Bench 表现出高保真度，以高于 0.97 的 Spearman 相关性重现了大型基准的排名，使其成为开发过程中模型选择和回归检测的宝贵工具。
RESEARCH · CL_97776 · Jun 17 · 08:27

新技术改进了具有更大编码器的SPLADE检索模型

研究人员发现，在使用更大的、更强大的预训练编码器时，SPLADE（一种神经稀疏检索模型）会出现性能下降的问题。这个问题被称为MLM头中的“尺度不匹配”，可能导致训练不稳定甚至崩溃。研究人员提出了一种简单的、零成本的调整方法，即在训练前重新调整MLM头的投影，这显著提高了ModernBERT和Ettin等模型的稳定性和检索效果。这种修正使得这些更大的骨干模型能够匹配甚至超越经典的BERT-SPLADE基线的性能。
TOOL · CL_85050 · Jun 11 · 07:18

Spring AI 和 Pgvector 在 PostgreSQL 中实现原生混合搜索

本文详细介绍了如何使用 pgvector 扩展和 Spring AI 在 PostgreSQL 中实现原生混合搜索。它主张将搜索功能整合到单个数据库中，从而无需单独的 Elasticsearch 集群以及相关的同步问题。该方法涉及在 PostgreSQL 中存储密集和稀疏向量嵌入，并直接在数据库中使用倒数排名融合 (RRF) 执行混合查询。
TOOL · CL_65900 · Jun 2 · 04:00

新的 SAE-SPLADE 模型通过语义概念增强信息检索

研究人员开发了一种名为 SAE-SPLADE 的新模型，该模型通过稀疏自编码器学习到的语义概念的潜在空间来替换传统的词汇骨干，从而增强信息检索。该方法旨在克服处理多义性、同义性和多语言/多模态应用的局限性。实验表明，SAE-SPLADE 在检索性能上可与现有的 SPLADE 模型相媲美，同时提供了更高的效率。
RESEARCH · CL_58714 · May 28 · 05:36

新方法从密集检索模型中提取适用于BM25的稀疏特征

研究人员引入了一种名为Latent Terms的新方法，该方法表明密集检索模型可以分解为适用于传统BM25评分的稀疏特征。该技术应用于使用稀疏自编码器的冻结检索器，在无需检索特定调整或监督的情况下，提取了具有齐夫分布统计特征的潜在词汇。Latent Terms在LIMIT基准测试上，其性能与现有的单向量评分方法和SPLADE变体相当或更优，并显著优于其基础模型。
TOOL · CL_49291 · May 19 · 10:07

SPLADE模型“奇特的权重”被分析以提高可解释性

研究人员对学习型稀疏检索模型SPLADE中的“奇特权重”进行了系统性研究。这些权重将重要性分配给看似与输入语义无关的扩展术语，可能会限制模型的解释性。研究发现，更大的词汇量与这些奇特标记的更高出现频率相关，而更严格的稀疏正则化器会减少它们的出现。研究表明，这些权重主要用于领域内的有效性，而不是领域外的泛化。
TOOL · CL_15918 · May 5 · 04:00

Expanded-SPLADE模型在检索微调中显示出局限性

本文研究了不同预训练数据集和方法对神经信息检索Expanded-SPLADE (ESPLADE) 模型性能的影响。研究发现，在通用语料库上以更高学习率预训练的模型，即使掩码语言模型准确率较低，也能获得更好的检索效果。此外，研究表明重复使用通用预训练数据集并未显著提高检索效果，并在高度剪枝的设置中强调了检索成本与效果之间的权衡。
RESEARCH · CL_03009 · Apr 23 · 14:05

迈向通用表格嵌入：跨数据任务的基准测试

研究人员开发了两个用于改进表格数据处理的新框架。其中一个名为“通过表示稳定性提高表格检索的鲁棒性”（Improving Robustness of Tabular Retrieval via Representational Stability），通过平均不同格式的嵌入来创建规范表示，解决了基于Transformer的表格检索系统中的序列化敏感性问题。另一个框架SAGE（Sparse Adaptive Guidance）是一个基于LL…
RESEARCH · CL_02080 · Apr 23 · 10:13

从 Token 到概念：利用 SAE 实现 SPLADE

研究人员开发了一种名为 SAE-SPLADE 的新模型，该模型用稀疏自动编码器（SAE）学习到的语义概念的潜在空间取代了像 SPLADE 这样的稀疏信息检索（IR）模型的传统词汇骨干。这种方法旨在克服多义性、同义性和多语言/多模态应用的局限性。实验表明，SAE-SPLADE 在检索性能上与传统 SPLADE 相当，同时提供了更高的效率。