研究表明,多语言嵌入模型中的跨语言检索受到“中心性”(embedding空间中的一种几何病态)的阻碍,而非各向异性。使用Gemini、Mistral和Qwen等模型进行的研究发现,解决中心性问题可以显著改善检索对称性。此外,对于阿姆哈拉语等代表性不足的语言,零样本多语言检索性能远低于语种内微调模型,凸显了进行特定语言适应的必要性。 AI
影响 中心性被确定为多语言AI检索中的一个关键问题,需要进行度量调整和特定语言微调以实现公平的性能,特别是对于代表性不足的语言。
排序理由 该集群包含两篇学术论文,详细介绍了多语言嵌入模型和检索系统的研究结果。
在 arXiv cs.IR (Information Retrieval) 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →