English(EN) Koshur Diacritizer: A Byte-Level Sequence-to-Sequence Model for Kashmiri Diacritic Restoration

新模型恢复克什米尔语文本中的注音符号

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了 Koshur Diacritizer，这是一种字节级序列到序列模型，旨在恢复克什米尔语文本中的注音符号。该模型解决了数字克什米尔语中省略注音符号的常见问题，这阻碍了自然语言处理应用。为了支持这项工作，发布了一个包含超过 23,000 个对齐句子对的新数据集，以及模型和源代码，以建立克什米尔语注音恢复的可复现基线，并帮助其他低资源语言的研究。 AI

排序理由该集群包含一篇学术论文，详细介绍了一种用于特定语言处理任务的新模型。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Haq Nawaz Malik, Nahfid Nissar, Faizan Iqbal · 2026-06-16 04:00

Koshur Diacritizer: A Byte-Level Sequence-to-Sequence Model for Kashmiri Diacritic Restoration

arXiv:2606.15883v1 Announce Type: cross Abstract: Kashmiri, an Indo-Aryan language written in a modified Perso-Arabic script, frequently omits diacritic marks in digital text, creating ambiguity and challenging downstream NLP applications. We present Koshur Diacritizer, a ByT5-sm…

报道来源 [1]

Koshur Diacritizer: A Byte-Level Sequence-to-Sequence Model for Kashmiri Diacritic Restoration

相关话题