PulseAugur
实时 20:24:02
None Pooling and Semantic Shift: The Fundamental Challenges in Long Text Embedding and Retrieval

新论文将语义漂移与长文本嵌入崩溃联系起来

一篇新发表在arXiv上的论文指出,导致长文本嵌入崩溃的主要原因在于池化操作和语义漂移,而非仅文本长度或注意力机制。该研究建立了一个理论框架,证明了上下文池化如何固有地导致向量的语义稀释和空间集中。实验表明,语义漂移是嵌入集中的主要预测因子,而各向异性仅在由显著语义漂移引起时才有害,这为长上下文检索中的挑战提供了新的解释。 AI

影响 为解决长文本嵌入中的根本性挑战提供了理论框架和实验证据,有望改进检索系统。

排序理由 学术论文,详细阐述了长文本嵌入挑战的理论和实验发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 · Hang Gao, Wujiang Xu, Kai Mei, Dimitris N. Metaxas ·

    Pooling and Semantic Shift: The Fundamental Challenges in Long Text Embedding and Retrieval

    arXiv:2603.21437v2 Announce Type: replace Abstract: Transformer-based embedding models frequently exhibit geometric pathologies, such as anisotropy and length-induced representation collapse, which can degrade downstream retrieval performance. While prior work often attributes th…