研究人员推出一个新的多语言客户服务自助语料库,专为北欧语言设计。该语料库包含超过 1,122 份经过人工验证的芬兰语、丹麦语、挪威语和瑞典语文档,总计超过一百万个词元。数据收集自四家电信运营商的公开自助页面,并结合使用大型语言模型和人工标注进行处理,以过滤个人信息并确保相关性。该数据集现已根据 CC-BY-NC-SA-4.0 许可协议公开提供,以促进北欧自然语言处理和信息检索领域的研究。 AI
影响 为推进北欧语言的自然语言处理提供了宝贵资源,特别是在检索增强生成和基于代理的服务架构方面。
排序理由 该集群描述了一个用于自然语言处理研究的新学术数据集的发布,包括一篇详细介绍其创建和特性的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →