PulseAugur
实时 05:51:47
English(EN) IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resources

新的波斯语模型IHUBERT在NLU基准测试中取得进展

研究人员推出IHUBERT,一个基于RoBERTa-base编码器的新波斯语语言模型。该模型在一个精心策划的45 GB数据集上进行了训练,该数据集源自Sepahr-Danesh集合,并采用了多阶段预处理流程,包括用于领域平衡的语义去重。IHUBERT在七个波斯语自然语言理解基准测试中进行了评估,表现强劲,尤其是在抽取式问答方面,在PQuAD和ParsiNLU-RC上均获得第一名。 AI

影响 推进了波斯语语言建模能力,并在特定NLU任务中设定了新的基准。

排序理由 该集群描述了一篇关于波斯语语言模型的创建和评估的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的波斯语模型IHUBERT在NLU基准测试中取得进展

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Mohammad Reza Hasani Ahangar ·

    IHUBERT:基于向量的语义去重和领域平衡预训练用于波斯语资源

    Persian pretrained language models (PLMs) are still limited by the scarcity of large-scale, high-quality pretraining corpora and by insufficient evaluation beyond standard classification and NER tasks. We present IHUBERT, a monolingual Persian PLM trained from scratch with the Ro…