研究人员推出了L3Cube-MahaPOS,这是一个用于马拉地语词性(POS)标注的新数据集,解决了该语言标注资源稀缺的问题。该数据集包含32,000多句新闻文本中的手动标注句子,并与通用依存关系对齐。它被用于对六个模型家族进行基准测试,表现最好的系统达到了88.67%的词级别准确率和81.67%的宏F1分数。该数据集、标注指南和训练好的模型正在发布,以促进马拉地语自然语言处理的进一步研究。 AI
影响 促进马拉地语NLP的研究和开发,有可能为大量使用者改善机器翻译和信息提取等下游应用。
排序理由 该集群描述了一个针对特定语言NLP任务的新学术数据集及相关模型的发布。
- BERT Models
- BiLSTM
- BiLSTM+CharCNN
- CRF
- English
- Hindi
- L3Cube-MahaPOS
- MahaBERT-v2
- Marathi
- Universal Dependencies
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →