LVLMs · PulseAugur

新的“神经门”方法通过编辑神经元增强LVLM隐私

研究人员开发了一种名为神经门（Neural Gate）的新方法，以增强大型视觉语言模型（LVLM）的隐私性。该技术使用神经元级别的模型编辑来识别和修改与隐私敏感概念相关的参数，从而提高模型拒绝有害查询的能力。在MiniGPT和LLaVA等模型上的实验表明，神经门在不损害模型在标准任务上的原始性能的情况下，有效地增强了隐私保护。

RESEARCH · CL_117799 · Jun 30 · 02:04

新研究通过先进的检测方法解决 LLM 和 VLM 幻觉问题

研究人员正在开发新的方法来对抗大型语言模型 (LLM) 和视觉语言模型 (VLM) 中的幻觉。一种名为“不确定时验证”的方法，通过跨模型一致性检查来提高幻觉检测的准确性，同时降低计算成本。另一种方法 CORTEX，通过比较检索文档的有无对内部模型表示的差异，专注于检索增强生成 (RAG) 中的 token 级检测。对于 VLM，ViPSy 和 Context-aware Attention Intervention (CAI) 等技术…

TOOL · CL_115539 · Jun 29 · 02:22

新的BYORn框架保护LVLMs免受后门攻击

研究人员开发了一个名为BYORn（Bootstrap Your Own Responses）的新型防御框架，用于在监督微调（SFT）过程中保护大型视觉语言模型（LVLMs）免受后门攻击。该方法利用预训练模型固有的语义理解能力来检测并用动态生成的、语义一致的响应替换恶意篡改的响应。BYORn能有效中和各种后门攻击，对模型的通用性能影响极小，在某些情况下甚至通过正则化效应提升了模型性能。

RESEARCH · CL_104705 · Jun 21 · 10:57

新的基准测试和调优方法推动统一多模态AI模型发展

研究人员正在开发新的方法和基准测试来改进统一多模态模型（UMMs），旨在整合视觉理解和生成能力。一种名为语义生成调优（SGT）的方法，使用图像分割作为生成代理来对齐这些能力，在理解和生成方面均表现出性能提升。同时，正在引入MMGist和Unison等新基准测试，以解决现有评估中存在的问题，例如视觉依赖性不足和性能饱和。这些基准测试旨在为UMMs提供更准确、更具区分度的评估，并突出视觉逻辑等方面的持续薄弱环节。

TOOL · CL_93535 · Jun 16 · 04:00

医疗AI模型需要校准的置信度以实现安全分诊，而非自主决策

一篇新的研究论文探讨了置信度估计对于医学视觉语言模型（LVLMs）的有效性。研究发现，尽管LVLMs可以生成流畅且自信的答案，但它们常常在没有准确利用提供的医学图像的情况下这样做，而是依赖于语言先验。这可能导致看起来可信但诊断错误的后果。该研究在三个医学数据集上评估了七种置信度估计器在五种开源LVLMs上的表现，得出结论：校准的置信度分数对于安全部署至关重要，能够使模型对病例进行分诊，而不是自主运行。研究结果表明，当前的置信度信号不足…

RESEARCH · CL_95878 · Jun 16 · 00:05

新研究表明，LVLMs在隐式交流方面存在困难

近期关于大型视觉语言模型（LVLMs）在指称性交流方面的两项研究，在它们协调有效指称表达的能力上得出了相互矛盾的结果。Jones等人的一篇论文表明，当明确提示时，LVLMs可以有效地协调，但无法从隐式提示中推断出这种需求。另一篇由Zeng等人撰写的论文指出，LVLMs在指称表达的交互式生成和解析方面存在困难，这凸显了在构建对人类协作至关重要的共同基础方面存在缺陷。两项研究都利用了指称性交流实验来探讨这些差异。

RESEARCH · CL_93074 · Jun 15 · 13:02

新方法通过证据获取解决视觉语言模型幻觉问题

研究人员开发了一种名为带预算共形证据获取（BCEA）的新方法，以解决大型视觉语言模型（LVLMs）中的幻觉问题。传统的需要弃权预测以维持准确性的方法效率极低，常常弃权超过80%的声明。BCEA提供了一种更细致的方法，允许模型在计算预算内进行回答、弃权或获取额外的视觉证据，从而恢复统计保证并提高覆盖率。

RESEARCH · CL_91013 · Jun 12 · 08:58

新的ALVTS方法通过自适应令牌选择提升LVLM效率

研究人员推出了一种名为自适应层级视觉令牌选择（ALVTS）的新框架，旨在提高大型视觉语言模型（LVLM）的效率。与先前永久丢弃令牌的方法不同，ALVTS动态选择重要令牌进行进一步处理，同时允许不太关键的令牌跳过某些层。这种自适应方法在无需重新训练模型的情况下最大限度地减少了计算冗余。实验表明，ALVTS可以在LLaVA-1.5、LLaVA-NeXT和Qwen2.5-VL等基准测试中实现89%的令牌压缩率，同时保留原始模型96.7%的准确性。

RESEARCH · CL_92087 · Jun 10 · 06:10

新研究通过新颖的检测和纠正方法解决 LLM 和 VLM 幻觉问题

研究人员正在开发新颖的方法来对抗大型语言模型 (LLM) 和视觉语言模型 (VLM) 中的幻觉。一种方法，循环注意力不确定性量化 (RAUQ)，利用注意力头行为来有效检测 LLM 中的事实不准确性，计算开销极小。对于 VLM，诸如检索增强的可靠性感知推理和注意力不平衡校正 (AIR) 等技术旨在通过将响应与外部证据联系起来并重新分配注意力权重来提高可信度。其他方法侧重于解开 VLM 解释中的语义泄漏，并使用反证据验证用于医疗应用，所有…

TOOL · CL_68554 · Jun 3 · 04:00

新框架测试 LVLMs 的视觉推理与事实回忆能力

研究人员开发了一个新框架，用于区分大型视觉语言模型 (LVLMs) 中的视觉解读和事实回忆能力。现有的评估方法常常将这两种能力混淆，使得评估真正的视觉推理变得困难。使用反事实可视化素养评估对 15 个最先进的 LVLMs 进行的实验表明，当出现冲突时，许多模型比依赖视觉证据更依赖事实先验，这种行为与人类测试对象不同。

RESEARCH · CL_56439 · May 28 · 04:00

新的防御和基准测试针对LVLM视觉输入漏洞

研究人员开发了新的方法来解决大型视觉语言模型（LVLM）的漏洞。其中一种方法SIGN是一个轻量级防御框架，它利用结构提取和动态中和来抑制图像输入中的对抗性扰动，以最小的像素修改和计算开销实现了高防御成功率。另一项开发是MVI-Bench，这是一个全面的基准测试，旨在评估LVLM在不同层级上抵御误导性视觉输入的鲁棒性，揭示了当前最先进模型存在的显著漏洞。

RESEARCH · CL_56537 · May 27 · 17:01

新框架 SeProD 通过自预言解码提升 LVLM 视觉搜索能力

研究人员推出了一种新颖的自预言解码框架 SeProD，旨在增强大型视觉语言模型 (LVLM) 的视觉搜索能力。该框架通过在预训练模型和后训练模型之间引入自调节机制，解决了训练后能力下降和长推理上下文中的干扰等挑战。SeProD 利用基于概率的预言采样，使预训练模型能够充当“预言家”，指导后训练模型的 token 接受，从而在不增加额外计算成本的情况下保持连贯的多步推理。

RESEARCH · CL_40747 · May 19 · 17:46

新的MedFocus方法改进了医学影像的LVLM视觉归因

研究人员开发了一个新框架，用于评估大型视觉语言模型（LVLM）在多大程度上能将其推理与视觉证据联系起来，特别是在胸部X光分析方面。现有的归因方法常常无法准确识别LVLM用于预测的视觉线索，这引发了对临床可信度的担忧。为了解决这个问题，提出了一种名为MedFocus的新方法，该方法在定位具有临床意义的解剖区域及其对模型输出的因果影响方面，显著优于以往的技术，旨在提高医疗LVLM的可靠性。

TOOL · CL_37957 · May 18 · 09:20

大型语言模型难以处理孟加拉语医学视觉问题，新数据集显示

研究人员开发了BanglaMedVQA，这是一个旨在评估大型语言模型（LLMs）和大型视觉语言模型（LVLMs）在孟加拉语医学视觉问答能力的新数据集。他们的基准测试显示，即使是Gemini和GPT-4.1 mini等领先模型在处理孟加拉语的诊断问题时也面临显著困难，这凸显了低资源语言在专业领域所面临的挑战。虽然一些开源模型在一般类别中表现出潜力，但它们在临床复杂查询方面也表现不佳，表明需要改进评估方法和模型能力。

TOOL · CL_36083 · May 15 · 08:01

EntropyScan 通过视觉注意力异常检测 LVLM 后门

研究人员开发了 EntropyScan，一种检测大型视觉语言模型 (LVLM) 中后门的新方法。该方法是模型级别的，不需要了解训练数据或特定的攻击触发器。EntropyScan 通过分析 LVLM 在处理良性样本时视觉注意力分配中的异常来识别后门，这表明跨模态对齐受到干扰。该方法利用 Tsallis 熵来量化这些失真，在实验中取得了高精度。

RESEARCH · CL_14346 · May 4 · 04:00

感知流网络和VGR增强LLM的视觉推理能力

研究人员开发了感知流网络（PFlowNet）以提高大型视觉语言模型（LVLMs）的视觉推理能力。PFlowNet将感知与推理分离，并使用变分强化学习来指导感知行为，旨在减少语言偏见和幻觉。该方法在V* Bench和MME-RealWorld-lite等基准测试中取得了最先进的成果。另一个相关模型VGR通过将语言推断基础化到检测到的图像区域中来增强多模态推理能力，在ChartQA等基准测试中显示出显著的改进，同时使用的图像令牌更少。

RESEARCH · CL_14044 · May 1 · 17:54

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

研究人员引入了持久视觉记忆（PVM），这是一个旨在解决大型视觉语言模型（LVLMs）中“视觉信号稀释”问题的新型模块。该问题会导致随着生成文本序列的增长，视觉注意力减弱。PVM作为LVLM架构内的并行分支，为视觉嵌入提供了一条直接通路，以维持感知，尤其是在复杂的推理任务中。在Qwen3-VL模型上的实验表明，在参数增加极少的情况下，准确性得到了显著提高。

RESEARCH · CL_06571 · Apr 28 · 04:00

新方法增强大语言模型在细粒度视觉识别任务中的能力

两篇新的研究论文提出了使用大型视觉语言模型（LVLMs）改进细粒度视觉识别（FGVR）的新方法。第一篇论文介绍了SARE框架，该框架根据识别难度自适应地应用推理，并重复利用过去的失败案例以提高准确性和效率。第二篇论文Fine-R1利用链式思考推理和策略优化，使多模态大语言模型在仅需少量训练数据的情况下就能在FGVR方面表现出色，在已见和未见类别上均优于现有模型。

RESEARCH · CL_06326 · Apr 27 · 12:22

Aligning with Your Own Voice: Self-Corrected Preference Learning for Hallucination Mitigation in LVLMs

研究人员正在开发新的框架来解决大型语言模型（LLM）中的幻觉问题。一种称为“LLM 精神病”的方法将严重的现实边界失败进行分类，并提出了一种评估它们的诊断量表，其中记录了 ChatGPT 5 的发现。另一种方法 KARL 使用强化学习将弃权行为与模型的知识边界对齐，旨在在不牺牲准确性的情况下减少幻觉。此外，PRISM 提供了一个基准，将幻觉分解为知识、推理和指令遵循错误，以帮助理解其根源。对于视觉语言模型，AVES-DPO 专注于自我…

RESEARCH · CL_02092 · Apr 23 · 17:54

新研究解决 LVLM 效率和幻觉问题

两篇新研究论文解决了大型视觉语言模型（LVLM）的效率和幻觉问题。一篇论文介绍了 LRCP，一种无需训练的方法，利用低秩可压缩性来修剪视觉标记，在保持高性能的同时显著降低计算成本。另一篇论文提出了 HalluScope，一个基准测试和微调框架（HalluVL-DPO），通过减少模型对文本先验的依赖并改进视觉基础来对抗提示引起的幻觉。