研究人员推出 PorTEXTO,这是一个旨在改进欧洲葡萄牙语 (pt-PT) 视觉文本提取的新基准。该基准解决了现有光学字符识别 (OCR) 基准中 pt-PT 资源稀缺的问题,这些基准通常侧重于资源丰富的语言或历史文本。PorTEXTO 使用了一个管道,该管道结合了大型语言模型的转录和母语人士的人工审查,以确保其质量和与当代应用的相关性。研究发现,专门的多语言数据比模型大小或分辨率更能有效提高 pt-PT OCR 的性能,这凸显了对开放式 pt-PT OCR 资源的需求。 AI
影响 该基准可以提高人工智能模型在欧洲葡萄牙语文本提取方面的性能,从而在讲这种语言的地区实现更好的应用。
排序理由 该项目描述了一篇介绍特定 NLP 任务基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →