English(EN) The Multilingual Curse at the Retrieval Layer: Evidence from Amharic

中心性阻碍多语言AI检索；阿姆哈拉语需要语种内微调

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-23 12:44

研究表明，多语言嵌入模型中的跨语言检索受到“中心性”（embedding空间中的一种几何病态）的阻碍，而非各向异性。使用Gemini、Mistral和Qwen等模型进行的研究发现，解决中心性问题可以显著改善检索对称性。此外，对于阿姆哈拉语等代表性不足的语言，零样本多语言检索性能远低于语种内微调模型，凸显了进行特定语言适应的必要性。 AI

影响中心性被确定为多语言AI检索中的一个关键问题，需要进行度量调整和特定语言微调以实现公平的性能，特别是对于代表性不足的语言。

排序理由该集群包含两篇学术论文，详细介绍了多语言嵌入模型和检索系统的研究结果。

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.CL TIER_1 English(EN) · Adib Sakhawat, Fardeen Sadab, Atik Shahriar · 2026-05-27 04:00

Hubness（中心性），而非各向异性，驱动多语言嵌入模型中的跨语言检索不对称性

arXiv:2605.26575v1 Announce Type: new Abstract: Multilingual embedding models are deployed under the assumption that cross-lingual retrieval is symmetric: if a query in language A retrieves its translation in language B, the reverse should also hold. In practice it does not. Usin…
arXiv cs.CL TIER_1 English(EN) · Yosef Worku Alemneh, Kidist Amde Mekonnen, Maarten de Rijke · 2026-05-26 04:00

多语言诅咒在检索层中的体现：以阿姆哈拉语为例

arXiv:2605.24556v1 Announce Type: cross Abstract: Multilingual retrieval increasingly underpins cross-lingual question answering and retrieval-augmented generation. Strong zero-shot scores on multilingual benchmarks are often taken as evidence that current encoders transfer relia…
arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Maarten de Rijke · 2026-05-23 12:44

检索层的多语言诅咒：来自阿姆哈拉语的证据

Multilingual retrieval increasingly underpins cross-lingual question answering and retrieval-augmented generation. Strong zero-shot scores on multilingual benchmarks are often taken as evidence that current encoders transfer reliably across many languages. We argue that this assu…

报道来源 [3]

Hubness（中心性），而非各向异性，驱动多语言嵌入模型中的跨语言检索不对称性

多语言诅咒在检索层中的体现：以阿姆哈拉语为例

检索层的多语言诅咒：来自阿姆哈拉语的证据

相关实体

相关话题