English(EN) Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR

共识熵通过衡量模型间一致性提高 VLM OCR 准确性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-07 04:00

研究人员开发了一种名为共识熵（CE）的新指标，用于评估视觉语言模型（VLM）的光学字符识别（OCR）输出的可靠性。CE 衡量多个 VLM 之间的一致性，假设正确预测将产生一致的输出，而错误则会产生分歧。该指标无需训练，可集成到名为 CE-OCR 的框架中，该框架利用集成一致性来验证和选择高质量的 OCR 结果，据报道，与使用 VLM 作为裁判相比，F1 分数提高了 42% 以上。 AI

影响引入了一种新颖的、无需训练的方法，用于提高 VLM 的 OCR 输出质量和可靠性，有可能增强 LLM 训练的数据生成。

排序理由该集群包含一篇学术论文，详细介绍了评估 VLM 的 OCR 输出的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Yulong Zhang, Tianyi Liang, Xinyue Huang, Erfei Cui, Guoqing Wang, Xu Guo, Chenhui Li, Gongshen Liu · 2026-05-07 04:00

Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR

arXiv:2504.11101v4 Announce Type: replace Abstract: Optical Character Recognition (OCR) is fundamental to Vision-Language Models (VLMs) and high-quality data generation for LLM training. Yet, despite progress in average OCR accuracy, state-of-the-art VLMs still struggle with dete…

报道来源 [1]

Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR

相关实体

相关话题