新方法修正文本嵌入中的均值偏差

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员发现当前文本嵌入模型中存在一种持续的偏差，其中每个嵌入都可以分解为句子特定成分和跨所有句子的几乎相同的均值成分。他们提出了两种无需训练的修正方法 R1 和 R2，其中 R2 通过将嵌入投影到均值方向之外而表现出更优越的性能。在 Massive Multilingual Text Embedding Benchmark (MMTEB) 上的 38 个模型中，R2 持续提高了分类准确率，均值嵌入的范数与模型收益相关。 AI

影响这项研究提供了一种提高文本嵌入准确性的方法，可能使下游 NLP 任务受益。

排序理由该集群包含一篇详细介绍改进文本嵌入新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

Youran Sun

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xingyu Ren, Youran Sun, Haoyu Liang · 2026-06-09 04:00

修正文本嵌入中的均值偏差：在MMTEB上进行无需训练的改进的精炼重整化

arXiv:2511.11041v2 Announce Type: replace-cross Abstract: We find that current sentence-embedding models produce outputs with a consistent bias: every embedding $e$ decomposes as $\tilde e + \mu$, where the mean $\mu$ is near-identical across all sentences. We study two training-…

报道来源 [1]

修正文本嵌入中的均值偏差：在MMTEB上进行无需训练的改进的精炼重整化

相关话题