English(EN) Structure-Aware Text Recognition for Ancient Greek Critical Editions

新的视觉语言模型评估方法应对复杂的古希腊文本识别

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-29 04:00

研究人员开发了新的资源并评估了现有的视觉语言模型（VLMs），以应对古希腊评注本中复杂的文本识别任务。这些历史文献具有复杂的版式语义、密集的引用层级和大量的页边注释，对当前的VLMs构成了挑战。该研究引入了一个包含185,000张页面图像的合成语料库和一个真实扫描版评注本的基准测试，结果显示在零样本设置下，大多数VLMs的表现不如传统软件。然而，Qwen3VL-8B模型表现出了最先进的性能，在真实扫描版上实现了1.0%的字符错误率，凸显了VLMs在处理此类专业文档方面的潜力。 AI

影响视觉语言模型在专业历史文献分析能力方面的进步，Qwen3VL-8B模型取得了令人鼓舞的结果。

排序理由该集群描述了一篇研究论文，其中详细介绍了用于特定自然语言处理任务的新数据集和模型评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Nicolas Angleraud, Antonia Karamolegkou, Beno\^it Sagot, Thibault Cl\'erice · 2026-05-29 04:00

面向古希腊评注本的结构感知文本识别

arXiv:2603.02803v2 Announce Type: replace Abstract: Recent advances in visual language models (VLMs) have transformed end-to-end document understanding. However, their ability to interpret the complex layout semantics of historical scholarly texts remains limited. This paper inve…

报道来源 [1]

面向古希腊评注本的结构感知文本识别

相关实体

相关话题