研究人员开发了一种名为共识熵(CE)的新指标,用于评估视觉语言模型(VLM)的光学字符识别(OCR)输出的可靠性。CE 衡量多个 VLM 之间的一致性,假设正确预测将产生一致的输出,而错误则会产生分歧。该指标无需训练,可集成到名为 CE-OCR 的框架中,该框架利用集成一致性来验证和选择高质量的 OCR 结果,据报道,与使用 VLM 作为裁判相比,F1 分数提高了 42% 以上。 AI
影响 引入了一种新颖的、无需训练的方法,用于提高 VLM 的 OCR 输出质量和可靠性,有可能增强 LLM 训练的数据生成。
排序理由 该集群包含一篇学术论文,详细介绍了评估 VLM 的 OCR 输出的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →