English(EN) Adapting Multilingual Embedding Models to Turkish via Cross-Lingual Tokenizer Surgery and Offline Distillation

新的土耳其语嵌入模型实现 8K 上下文窗口

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-28 14:24

研究人员开发了 embeddingmagibu-200m，这是一款新的专注于土耳其语的句子嵌入模型，可显著增强语义搜索及相关任务。该模型拥有 768 维向量输出和 8,192 个 token 的上下文窗口，相比之前的基于 BERT 的土耳其语编码器有了巨大提升。适配过程包括优化分词器、克隆教师模型和采用离线蒸馏，最终得到一个参数量为 200M 的模型，该模型训练高效且成本效益高。 AI

影响这项研究为将大型多语言模型适配到特定语言提供了一种更高效、更具成本效益的方法，有望加速专业化人工智能工具的开发。

排序理由该集群包含一篇详细介绍新模型和适配方法的论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · M. Ali Bayram, Banu Diri, Sava\c{s} Y{\i}ld{\i}r{\i}m · 2026-05-29 04:00

通过跨语言分词器手术和离线蒸馏将多语言嵌入模型适配到土耳其语

arXiv:2605.29992v1 Announce Type: new Abstract: Sentence embeddings are a foundational component for semantic search, clustering, classification, and retrieval-augmented generation. This paper presents embeddingmagibu-200m, a Turkish-focused sentence embedding model that produces…
arXiv cs.CL TIER_1 English(EN) · Savaş Yıldırım · 2026-05-28 14:24

通过跨语言分词器手术和离线蒸馏使多语言嵌入模型适应土耳其语

Sentence embeddings are a foundational component for semantic search, clustering, classification, and retrieval-augmented generation. This paper presents embeddingmagibu-200m, a Turkish-focused sentence embedding model that produces 768-dimensional L2-normalized vectors and suppo…

报道来源 [2]

通过跨语言分词器手术和离线蒸馏将多语言嵌入模型适配到土耳其语

通过跨语言分词器手术和离线蒸馏使多语言嵌入模型适应土耳其语

相关实体

相关话题