研究人员开发了一种新方法,以提高多模态大语言模型(MLLM)在拥挤场景等具有挑战性的视觉场景中的鲁棒性。该方法利用语言引导的语义线索(LGSC)来克服遮挡和小目标造成的性能下降问题。通过从MLLM的视觉管道中提取语义线索并用文本嵌入进行引导,该方法创建了语言语义先验,以精炼目标语义并提高定位准确性。 AI
影响 增强了MLLM在复杂视觉环境中的鲁棒性,有望改进需要精确目标识别和定位的应用。
排序理由 这是一篇详细介绍改进MLLM在特定任务上性能的新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →