English(EN) MUDIDI: A Two-Stage Framework for Multilingual Dictionary Digitization with Language Models

新框架使用LLM实现多语言词典数字化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 12:44

研究人员开发了MUDIDI，一个旨在实现多语言词典数字化的两阶段框架，尤其适用于低资源语言。该框架解决了字符识别、复杂布局和词典学结构保存等挑战。MUDIDI的第一阶段评估字符识别和标记保存，第二阶段将词典条目分割成机器可读的格式。实验表明，大型语言模型（LLMs）在此任务上的表现优于传统的OCR和视觉语言模型，通过提供词典介绍等额外上下文信息可以进一步提升性能。 AI

影响该框架通过更好地数字化词典，有望显著改善濒危语言的语言资源可及性。

排序理由该集群包含一篇学术论文，详细介绍了一个针对特定NLP任务的新框架和数据集。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Ekaterina Vylomova · 2026-06-08 12:44

MUDIDI：一种使用语言模型的双阶段多语言词典数字化框架

Multilingual dictionaries are among the most valuable documentary resources for low-resource and endangered languages, yet many remain available only as scans. For many decades, their digitization and conversion into a machine-readable format was nearly impossible due to language…

报道来源 [1]

MUDIDI：一种使用语言模型的双阶段多语言词典数字化框架

相关实体

相关话题