English(EN) HKVLM: Faithful Reasoning Grounding by Binding Language Queries to a Frozen Detector

HKVLM 模型通过分离定位和语言来改进视觉推理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了 HKVLM，一种新颖的视觉推理方法，它将定位与语言生成分离开来。该模型利用一个冻结的语言对齐检测器和一个冻结的语言模型，通过一个轻量级的对齐钩连接。该钩通过对比检索和二分匹配将语言查询绑定到区域建议，旨在提高视觉问答和目标检测任务的忠实度。该系统专为小数据设置而设计，并包含一个忠实度否决机制，以防止命名不支持的对象，从而显著降低幻觉率。 AI

影响这种方法可能导致更准确、更忠实的视觉问答和目标检测系统，尤其是在训练数据有限的情况下。

排序理由该集群描述了一篇详细介绍用于视觉推理的新颖模型架构（HKVLM）的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Bo Ma · 2026-06-30 04:00

HKVLM：通过将语言查询绑定到冻结的检测器来实现忠实的推理基础

arXiv:2606.28862v1 Announce Type: new Abstract: Many visual requests -- ``the object to open this bottle'', ``the person not wearing a helmet'' -- require reasoning, not just category matching. Pure open-vocabulary detectors need an explicit phrase; vision-language models (VLMs) …

报道来源 [1]

HKVLM：通过将语言查询绑定到冻结的检测器来实现忠实的推理基础

相关实体

相关话题