研究人员推出IHUBERT,一个基于RoBERTa-base编码器的新波斯语语言模型。该模型在一个精心策划的45 GB数据集上进行了训练,该数据集源自Sepahr-Danesh集合,并采用了多阶段预处理流程,包括用于领域平衡的语义去重。IHUBERT在七个波斯语自然语言理解基准测试中进行了评估,表现强劲,尤其是在抽取式问答方面,在PQuAD和ParsiNLU-RC上均获得第一名。 AI
影响 推进了波斯语语言建模能力,并在特定NLU任务中设定了新的基准。
排序理由 该集群描述了一篇关于波斯语语言模型的创建和评估的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →