English(EN) SkMTEB: Slovak Massive Text Embedding Benchmark and Model Adaptation

发布新的斯洛伐克文本嵌入基准和模型

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-11 17:50

研究人员推出了 SkMTEB，这是一个专为斯洛伐克语评估文本嵌入模型而设计的新基准。该基准包含 7 种任务类型的 31 个数据集，显著扩展了对这种低资源语言的覆盖范围。研究发现，大型多语言模型表现最佳，而现有的斯洛伐克语特定 NLU 模型在嵌入任务上的迁移效果不佳。为解决此问题，该团队开发了两个开源的斯洛伐克语嵌入模型：\texttt{e5-sk-small} 和 \texttt{e5-sk-large}，它们在本地可部署的情况下，提供了与专有 API 相媲美的性能。 AI

影响为斯洛伐克语人工智能应用提供了一个新的评估框架和开源模型，有可能实现更好的语义搜索和 RAG。

排序理由该集群描述了一篇介绍特定语言基准和模型的新学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Marek \v{S}uppa, Andrej Ridzik, Daniel Hl\'adek, Nat\'alia K\v{n}a\v{z}ekov\'a, Vikt\'oria Ondrejov\'a · 2026-06-12 04:00

SkMTEB：斯洛伐克大规模文本嵌入基准和模型适配

arXiv:2606.13647v1 Announce Type: cross Abstract: We introduce SkMTEB, the first comprehensive MTEB-style text embedding benchmark for Slovak, a low-resource West Slavic language, comprising 31 datasets across 7 task types -- nearly 4$\times$ the depth of existing multilingual be…
arXiv cs.AI TIER_1 English(EN) · Viktória Ondrejová · 2026-06-11 17:50

SkMTEB：斯洛伐克大规模文本嵌入基准和模型适配

We introduce SkMTEB, the first comprehensive MTEB-style text embedding benchmark for Slovak, a low-resource West Slavic language, comprising 31 datasets across 7 task types -- nearly 4$\times$ the depth of existing multilingual benchmark coverage for Slovak. Our evaluation of 31 …

报道来源 [2]

SkMTEB：斯洛伐克大规模文本嵌入基准和模型适配

SkMTEB：斯洛伐克大规模文本嵌入基准和模型适配

相关实体

相关话题