研究人员推出了 SkMTEB,这是一个专为斯洛伐克语评估文本嵌入模型而设计的新基准。该基准包含 7 种任务类型的 31 个数据集,显著扩展了对这种低资源语言的覆盖范围。研究发现,大型多语言模型表现最佳,而现有的斯洛伐克语特定 NLU 模型在嵌入任务上的迁移效果不佳。为解决此问题,该团队开发了两个开源的斯洛伐克语嵌入模型:\texttt{e5-sk-small} 和 \texttt{e5-sk-large},它们在本地可部署的情况下,提供了与专有 API 相媲美的性能。 AI
影响 为斯洛伐克语人工智能应用提供了一个新的评估框架和开源模型,有可能实现更好的语义搜索和 RAG。
排序理由 该集群描述了一篇介绍特定语言基准和模型的新学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →