研究人员推出了 PerSoMed,一个新推出的用于分类波斯语社交媒体文本的大规模数据集。该数据集包含 36,000 篇帖子,涵盖九个类别,每个类别有 4,000 个样本以确保平衡。该研究对各种模型进行了基准测试,发现基于 Transformer 的架构,特别是 TookaBERT-Large,表现最佳。该资源旨在推动波斯语自然语言处理研究。 AI
影响 为推动波斯语 NLP 任务(如趋势分析和用户分类)提供了基础资源。
排序理由 该集群包含一篇介绍新数据集和基准测试结果的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →