研究人员开发了 Koshur Diacritizer,这是一种字节级序列到序列模型,旨在恢复克什米尔语文本中的注音符号。该模型解决了数字克什米尔语中省略注音符号的常见问题,这阻碍了自然语言处理应用。为了支持这项工作,发布了一个包含超过 23,000 个对齐句子对的新数据集,以及模型和源代码,以建立克什米尔语注音恢复的可复现基线,并帮助其他低资源语言的研究。 AI
排序理由 该集群包含一篇学术论文,详细介绍了一种用于特定语言处理任务的新模型。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →