English(EN) ROMEVA: Geometry-Preserving Vocabulary Expansion for Roman Urdu Language Models

新方法ROMEVA改进罗马乌尔都语语言模型适应性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-21 12:40

一篇新研究论文介绍了一种名为ROMEVA的方法，用于扩展多语言语言模型（如mBERT）的词汇表，以更好地处理像罗马乌尔都语这样形态不一致的语言。罗马乌尔都语不一致的拼写导致显著的子词碎片化，平均每个词元（token）有1.50个子词。ROMEVA结合了子词初始化和PCA引导的锚定损失，以在词汇扩展期间稳定词嵌入。在罗马乌尔都语语料库上的实验表明，尽管ROMEVA最有效地保持了词嵌入空间，但朴素的微调在下游情感分类任务上产生了更好的性能，这表明对于这类语言，更强的适应性可能比严格的词嵌入保持更有益。 AI

影响提出了一种改进语言模型在罗马乌尔都语等形态不一致语言上性能的方法。

排序理由该集群描述了一篇详细介绍一种新颖语言模型适应性方法的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-21 12:40

ROMEVA: Geometry-Preserving Vocabulary Expansion for Roman Urdu Language Models

Multilingual Language Models like mBERT are widely used for low-resource NLP, yet their adaptation to morphologically inconsistent languages such as Roman Urdu remains underexplored. Roman Urdu spelling variation causes severe sub-word fragmentation, averaging 1.50 sub-words per …

报道来源 [1]

ROMEVA: Geometry-Preserving Vocabulary Expansion for Roman Urdu Language Models

相关实体

相关话题