English(EN) PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

新数据集助力波斯语社交媒体文本分类

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员推出了 PerSoMed，一个新推出的用于分类波斯语社交媒体文本的大规模数据集。该数据集包含 36,000 篇帖子，涵盖九个类别，每个类别有 4,000 个样本以确保平衡。该研究对各种模型进行了基准测试，发现基于 Transformer 的架构，特别是 TookaBERT-Large，表现最佳。该资源旨在推动波斯语自然语言处理研究。 AI

影响为推动波斯语 NLP 任务（如趋势分析和用户分类）提供了基础资源。

排序理由该集群包含一篇介绍新数据集和基准测试结果的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Isun Chehreh, Ebrahim Ansari · 2026-05-26 04:00

PerSoMed：用于波斯语社交媒体文本分类的大规模平衡数据集

arXiv:2602.19333v2 Announce Type: replace Abstract: This research introduces the first large-scale, well-balanced Persian social media text classification dataset, specifically designed to address the lack of comprehensive resources in this domain. The dataset comprises 36,000 po…

报道来源 [1]

PerSoMed：用于波斯语社交媒体文本分类的大规模平衡数据集

相关实体

相关话题