English(EN) L3Cube-MahaPOS: A Marathi Part-of-Speech Tagging Dataset and BERT Models

发布新的马拉地语词性标注数据集和BERT模型

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-23 17:10

研究人员推出了L3Cube-MahaPOS，这是一个用于马拉地语词性（POS）标注的新数据集，解决了该语言标注资源稀缺的问题。该数据集包含32,000多句新闻文本中的手动标注句子，并与通用依存关系对齐。它被用于对六个模型家族进行基准测试，表现最好的系统达到了88.67%的词级别准确率和81.67%的宏F1分数。该数据集、标注指南和训练好的模型正在发布，以促进马拉地语自然语言处理的进一步研究。 AI

影响促进马拉地语NLP的研究和开发，有可能为大量使用者改善机器翻译和信息提取等下游应用。

排序理由该集群描述了一个针对特定语言NLP任务的新学术数据集及相关模型的发布。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Hariom Ingle, Ronit Ghode, Ishwari Gondkar, Jidnyasa Harad, Raviraj Joshi · 2026-06-24 04:00

L3Cube-MahaPOS: 一个马拉地语词性标注数据集及BERT模型

arXiv:2606.24825v1 Announce Type: new Abstract: Part-of-Speech (POS) tagging is a foundational NLP task underpinning machine translation, information extraction, and syntactic parsing. Despite Marathi being spoken by over 83 million people and ranking among the top twenty most sp…
arXiv cs.CL TIER_1 English(EN) · Raviraj Joshi · 2026-06-23 17:10

L3Cube-MahaPOS：一个马拉地语词性标注数据集及BERT模型

Part-of-Speech (POS) tagging is a foundational NLP task underpinning machine translation, information extraction, and syntactic parsing. Despite Marathi being spoken by over 83 million people and ranking among the top twenty most spoken languages worldwide, it remains severely un…

报道来源 [2]

L3Cube-MahaPOS: 一个马拉地语词性标注数据集及BERT模型

L3Cube-MahaPOS：一个马拉地语词性标注数据集及BERT模型

相关实体

相关话题