PulseAugur
实时 15:24:45
English(EN) PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

新数据集助力波斯语社交媒体文本分类

研究人员推出了 PerSoMed,一个新推出的用于分类波斯语社交媒体文本的大规模数据集。该数据集包含 36,000 篇帖子,涵盖九个类别,每个类别有 4,000 个样本以确保平衡。该研究对各种模型进行了基准测试,发现基于 Transformer 的架构,特别是 TookaBERT-Large,表现最佳。该资源旨在推动波斯语自然语言处理研究。 AI

影响 为推动波斯语 NLP 任务(如趋势分析和用户分类)提供了基础资源。

排序理由 该集群包含一篇介绍新数据集和基准测试结果的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新数据集助力波斯语社交媒体文本分类

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Isun Chehreh, Ebrahim Ansari ·

    PerSoMed:用于波斯语社交媒体文本分类的大规模平衡数据集

    arXiv:2602.19333v2 Announce Type: replace Abstract: This research introduces the first large-scale, well-balanced Persian social media text classification dataset, specifically designed to address the lack of comprehensive resources in this domain. The dataset comprises 36,000 po…