研究人员开发了一种名为 Vision-PE Shuffle Guidance (VPSG) 的新方法,以解决多模态大语言模型 (MLLM) 中坐标预测不准确的问题。这些模型在精确局部化方面常常遇到困难,尤其是在处理高分辨率图像时,位置编码可能会失效并引入可预测的偏差。VPSG 是一种在推理过程中应用的、无需训练的技术,它通过打乱位置编码并利用由此产生的信息来改进数字解码,从而减轻这些偏差。在 ScreenSpot-Pro 基准测试上的实验表明,VPSG 在无需重新训练的情况下,显著提高了不同模型尺寸下的局部化准确性。 AI
影响 提高了 MLLM 的局部化准确性,有望在视觉-语言任务中实现更精确的应用。
排序理由 学术论文,介绍了一种减轻多模态大语言模型偏差的新方法。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →