研究人员开发了几种新方法来对抗大型视觉语言模型 (LVLM) 中的幻觉,当这些模型生成的文本不受输入图像支持时就会发生幻觉。一种称为“视觉可追踪幻觉检测”的方法,使用视觉证据基础和反事实扰动来识别不受支持的文本声明。另一个框架 ViPSy,通过关注重复的对象级内容并根据视觉线索进行条件展开来合成偏好数据,以提高忠实度。此外,一种称为定向拾取偏好优化 (OPPO) 的方法,根据视觉证据的强度而不是仅仅响应质量来学习偏好,使用有序证据边距来增强视觉敏感性。最后,上下文感知注意力干预 (CAI) 是一种无需训练的机制,它选择性地干预注意力过程,仅在必要时加强视觉基础以保持语言流畅性。 AI
影响 这些进展可以显著提高 LVLM 在医疗保健等关键应用中的可靠性和可信度。
排序理由 多篇研究论文提出缓解大型视觉语言模型幻觉的新方法。
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →