PulseAugur
实时 14:48:06

新方法纠正了多模态大语言模型因位置编码失败而产生的坐标预测偏差

研究人员开发了一种名为 Vision-PE Shuffle Guidance (VPSG) 的新方法,以解决多模态大语言模型 (MLLM) 中坐标预测不准确的问题。这些模型在精确局部化方面常常遇到困难,尤其是在处理高分辨率图像时,位置编码可能会失效并引入可预测的偏差。VPSG 是一种在推理过程中应用的、无需训练的技术,它通过打乱位置编码并利用由此产生的信息来改进数字解码,从而减轻这些偏差。在 ScreenSpot-Pro 基准测试上的实验表明,VPSG 在无需重新训练的情况下,显著提高了不同模型尺寸下的局部化准确性。 AI

影响 提高了 MLLM 的局部化准确性,有望在视觉-语言任务中实现更精确的应用。

排序理由 学术论文,介绍了一种减轻多模态大语言模型偏差的新方法。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新方法纠正了多模态大语言模型因位置编码失败而产生的坐标预测偏差

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Xingjian Tao, Yiwei Wang, Yujun Cai, Yihong Luo, Kai Han, Jing Tang ·

    Mitigating Coordinate Prediction Bias from Positional Encoding Failures

    arXiv:2510.22102v2 Announce Type: replace Abstract: While Multimodal Large Language Models (MLLMs) excel at general vision-language tasks, precise coordinate prediction remains a significant challenge, particularly as high-resolution inputs cause visual positional encodings (VPEs…