PulseAugur
实时 09:32:40
English(EN) MUDIDI: A Two-Stage Framework for Multilingual Dictionary Digitization with Language Models

新框架使用LLM实现多语言词典数字化

研究人员开发了MUDIDI,一个旨在实现多语言词典数字化的两阶段框架,尤其适用于低资源语言。该框架解决了字符识别、复杂布局和词典学结构保存等挑战。MUDIDI的第一阶段评估字符识别和标记保存,第二阶段将词典条目分割成机器可读的格式。实验表明,大型语言模型(LLMs)在此任务上的表现优于传统的OCR和视觉语言模型,通过提供词典介绍等额外上下文信息可以进一步提升性能。 AI

影响 该框架通过更好地数字化词典,有望显著改善濒危语言的语言资源可及性。

排序理由 该集群包含一篇学术论文,详细介绍了一个针对特定NLP任务的新框架和数据集。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Ekaterina Vylomova ·

    MUDIDI:一种使用语言模型的双阶段多语言词典数字化框架

    Multilingual dictionaries are among the most valuable documentary resources for low-resource and endangered languages, yet many remain available only as scans. For many decades, their digitization and conversion into a machine-readable format was nearly impossible due to language…