研究人员开发了一种新的无需训练的解码方法,称为流形引导自适应投影(MGAP),以对抗多模态大语言模型(MLLMs)中的幻觉。该方法解决了模型生成与视觉输入不一致的对象的问题,这通常是由于过度依赖语言先验。MGAP通过识别并自适应地减弱构建的语言先验子空间中有问题的语言先验成分来工作,从而保留模型表示的基本语义结构。在POPE和CHAIR基准上的实验表明,MGAP在保持连贯性的同时有效抑制了幻觉,性能优于现有的解码基线。 AI
影响 减轻了MLLMs中的幻觉,可能提高了它们在多模态任务中的可靠性。
排序理由 该集群包含一篇详细介绍MLLM新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →