PulseAugur
实时 21:27:03
English(EN) Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR

共识熵通过衡量模型间一致性提高 VLM OCR 准确性

研究人员开发了一种名为共识熵(CE)的新指标,用于评估视觉语言模型(VLM)的光学字符识别(OCR)输出的可靠性。CE 衡量多个 VLM 之间的一致性,假设正确预测将产生一致的输出,而错误则会产生分歧。该指标无需训练,可集成到名为 CE-OCR 的框架中,该框架利用集成一致性来验证和选择高质量的 OCR 结果,据报道,与使用 VLM 作为裁判相比,F1 分数提高了 42% 以上。 AI

影响 引入了一种新颖的、无需训练的方法,用于提高 VLM 的 OCR 输出质量和可靠性,有可能增强 LLM 训练的数据生成。

排序理由 该集群包含一篇学术论文,详细介绍了评估 VLM 的 OCR 输出的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

共识熵通过衡量模型间一致性提高 VLM OCR 准确性

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Yulong Zhang, Tianyi Liang, Xinyue Huang, Erfei Cui, Guoqing Wang, Xu Guo, Chenhui Li, Gongshen Liu ·

    Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR

    arXiv:2504.11101v4 Announce Type: replace Abstract: Optical Character Recognition (OCR) is fundamental to Vision-Language Models (VLMs) and high-quality data generation for LLM training. Yet, despite progress in average OCR accuracy, state-of-the-art VLMs still struggle with dete…