PulseAugur
实时 07:39:16
English(EN) SkMTEB: Slovak Massive Text Embedding Benchmark and Model Adaptation

发布新的斯洛伐克文本嵌入基准和模型

研究人员推出了 SkMTEB,这是一个专为斯洛伐克语评估文本嵌入模型而设计的新基准。该基准包含 7 种任务类型的 31 个数据集,显著扩展了对这种低资源语言的覆盖范围。研究发现,大型多语言模型表现最佳,而现有的斯洛伐克语特定 NLU 模型在嵌入任务上的迁移效果不佳。为解决此问题,该团队开发了两个开源的斯洛伐克语嵌入模型:\texttt{e5-sk-small} 和 \texttt{e5-sk-large},它们在本地可部署的情况下,提供了与专有 API 相媲美的性能。 AI

影响 为斯洛伐克语人工智能应用提供了一个新的评估框架和开源模型,有可能实现更好的语义搜索和 RAG。

排序理由 该集群描述了一篇介绍特定语言基准和模型的新学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Marek \v{S}uppa, Andrej Ridzik, Daniel Hl\'adek, Nat\'alia K\v{n}a\v{z}ekov\'a, Vikt\'oria Ondrejov\'a ·

    SkMTEB: Slovak Massive Text Embedding Benchmark and Model Adaptation

    arXiv:2606.13647v1 Announce Type: cross Abstract: We introduce SkMTEB, the first comprehensive MTEB-style text embedding benchmark for Slovak, a low-resource West Slavic language, comprising 31 datasets across 7 task types -- nearly 4$\times$ the depth of existing multilingual be…

  2. arXiv cs.AI TIER_1 English(EN) · Viktória Ondrejová ·

    SkMTEB: Slovak Massive Text Embedding Benchmark and Model Adaptation

    We introduce SkMTEB, the first comprehensive MTEB-style text embedding benchmark for Slovak, a low-resource West Slavic language, comprising 31 datasets across 7 task types -- nearly 4$\times$ the depth of existing multilingual benchmark coverage for Slovak. Our evaluation of 31 …