English(EN) IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resources

新的波斯语模型IHUBERT在NLU基准测试中取得进展

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 11:10

研究人员推出IHUBERT，一个基于RoBERTa-base编码器的新波斯语语言模型。该模型在一个精心策划的45 GB数据集上进行了训练，该数据集源自Sepahr-Danesh集合，并采用了多阶段预处理流程，包括用于领域平衡的语义去重。IHUBERT在七个波斯语自然语言理解基准测试中进行了评估，表现强劲，尤其是在抽取式问答方面，在PQuAD和ParsiNLU-RC上均获得第一名。 AI

影响推进了波斯语语言建模能力，并在特定NLU任务中设定了新的基准。

排序理由该集群描述了一篇关于波斯语语言模型的创建和评估的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Mohammad Reza Hasani Ahangar · 2026-06-18 11:10

IHUBERT：基于向量的语义去重和领域平衡预训练用于波斯语资源

Persian pretrained language models (PLMs) are still limited by the scarcity of large-scale, high-quality pretraining corpora and by insufficient evaluation beyond standard classification and NER tasks. We present IHUBERT, a monolingual Persian PLM trained from scratch with the Ro…

报道来源 [1]

IHUBERT：基于向量的语义去重和领域平衡预训练用于波斯语资源

相关实体

相关话题