实体 Vision Language Models (VLMs)

Vision Language Models (VLMs)

PulseAugur coverage of Vision Language Models (VLMs) — every cluster mentioning Vision Language Models (VLMs) across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 14

发布 · 30天

90 天内 0

论文 · 30天

90 天内 14

层级分布 · 90 天

主题

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 14 条

RESEARCH · CL_111320 · Jun 25 · 08:20

新的基准测试评估AI图像编辑器对真实世界光照物理学的掌握程度

研究人员推出了3D-anchored Light Probe (3DLP) 基准测试，以评估图像编辑模型是否真正理解真实世界的光照物理学。该基准测试包含一个包含1000对图像的新数据集，捕捉了室内场景中灯光探头开启和关闭时的图像，并对阴影和金属表面等特定区域进行了标注。评估显示，尽管顶级模型在物理光照方面表现出惊人的一致性，但它们仍然存在错误，尤其是在光照较少的区域。研究还发现，视觉语言模型 (VLMs) 不适合进行像素级光传输分析。
TOOL · CL_105260 · Jun 22 · 15:41

新的Brain-Adapter框架利用VLM和LLM增强3D CT扫描诊断

研究人员开发了Brain-Adapter，一个新颖的双流多实例学习（MIL）框架，用于3D脑部CT扫描的自动诊断。该框架通过引入一个使用诊断句子作为语义查询的文本条件注意力机制，有效地将预训练的2D视觉语言模型（VLM）的能力转移到3D体积数据上。一个并行的视觉MIL流捕获全局扫描特征，两个流都由通过大型语言模型（LLM）提取的标签进行监督。该系统包含一个不确定性感知细化模块来校准和融合预测，通过减少对密集手动注释的需求，显著优于现有…
RESEARCH · CL_106814 · Jun 22 · 05:37

新的AI安全护栏挑战推理必要性，提升多模态安全性

两篇新的研究论文探讨了AI安全护栏的有效性和适应性。其中一篇论文LeanGuard质疑复杂推理在内容审核中的必要性，证明一个轻量级的、仅标签的编码器可以匹配基于推理的大模型的准确性，同时速度更快、效率更高。另一篇论文介绍了SingGuard，这是一种为视觉语言模型设计的策略自适应多模态安全护栏，能够动态适应不断变化的AI安全策略，并在新的多模态基准测试中取得最先进的性能。
TOOL · CL_86909 · Jun 12 · 04:00

新的GAE模型增强了视觉语言模型到机器人动作的翻译

研究人员开发了一个名为通用动作专家（GAE）的新模型，以改进视觉语言模型（VLMs）将高级计划转化为精确机器人动作的方式。GAE作为一个与任务无关的组件，将VLM预测的稀疏几何计划转换为连续的动作轨迹。这种方法将推理与动作生成分离，增强了泛化能力。GAE在一个大型机器人轨迹数据集上进行了预训练，并利用动作预训练、点云微调（APPF）方案来提高效率。
RESEARCH · CL_86873 · Jun 11 · 05:29

新的贝叶斯方法增强了分布偏移下的多标签识别能力

研究人员开发了贝叶斯条件先验（BCP）估计，这是一种新颖的无梯度方法，用于多标签识别任务的测试时自适应。该技术通过注入标签依赖性而不改变骨干网络，解决了视觉语言模型（VLMs）在分布偏移下的脆弱性问题。BCP 从无标签的测试数据中在线估计锚点条件先验，从而提高了在多标签基准测试上的性能。
RESEARCH · CL_79102 · Jun 7 · 09:49

新方法改进视频中的机器人动作解读

研究人员开发了一种名为闭环轨迹蒸馏（Closed-Loop Trace Distillation）的新方法，以提高视觉语言模型（VLMs）从视频和传感器数据中解读机器人动作的能力。该技术从标记的训练轨迹中蒸馏出一种称为蒸馏阅读启发式（Distilled Reading Heuristic, DRH）的自然语言提示。当与冻结的VLM一起使用时，DRH显著提高了预测最小成功动作链的准确性，在各种机器人任务上的表现优于原始模态基线高达0.47。
RESEARCH · CL_68584 · Jun 2 · 14:49

新方法提升VLM对抗攻击的鲁棒性

研究人员开发了新方法来提高CLIP等视觉语言模型（VLM）的对抗鲁棒性。SS-TPT使用稳定性和适用性分数来指导适应和推理，放大可信视图同时抑制损坏的视图。MAC采用多视图反击，具有腐蚀感知软加权，并根据估计的腐蚀自适应地缩放强度。DBD利用对抗性图像沿主导方向移动的观察结果，使用这种“防御方向”来恢复鲁棒性表示，甚至超越干净精度。
RESEARCH · CL_63051 · Jun 1 · 04:00

新方法剪枝VLM标记以提高效率和相关性

研究人员开发了一种名为“结构到语义”（STS）的新方法，以提高视觉语言模型（VLM）的效率。目前用于剪枝视觉标记（以减少计算负载）的方法通常仅依赖于注意力分数，这会导致重要上下文细节的丢失。STS通过一个两阶段过程来解决这个问题：首先，它最大化空间和结构多样性；其次，它根据与提示的语义相关性来过滤标记。这种方法旨在保留更多样化和相关的信息，以实现更好的任务对齐。
RESEARCH · CL_62178 · May 29 · 00:45

新的EAGLE框架使多智能体VQA的视觉证据对齐

研究人员开发了EAGLE，一个用于多智能体视觉问答（VQA）的新框架，该框架侧重于对齐视觉证据，而不仅仅是文本共识。这种方法旨在通过确保VLM智能体将答案建立在一致的视觉信息之上来提高其可靠性。EAGLE是一种无需训练的方法，它暴露每个智能体的接地区域以进行相互验证，从而在各种VQA基准测试中获得更好的性能。
TOOL · CL_51142 · May 26 · 04:00

VLA-Pruner通过优化视觉令牌剪枝来增强具身AI的效率

研究人员开发了VLA-Pruner，一种使视觉-语言-动作（VLA）模型在具身AI任务中更高效的新方法。现有的视觉令牌剪枝技术，专为视觉-语言模型设计，在VLA系统中会降低性能，因为它们没有考虑到语言预填充和动作解码阶段之间不同的注意力模式。VLA-Pruner通过同时考虑语义显著性和时间动作相关性来解决这个问题，在各种VLA架构上实现了高达1.99倍的速度提升，且操纵质量相当。
RESEARCH · CL_50775 · May 25 · 00:00

新研究重新思考用于动作模型的VLM初始化

一篇新论文通过检查预训练视觉语言模型（VLM）表示的影响，探讨了如何最好地初始化视觉语言动作（VLA）模型。研究表明，保留原始VLM表示对于动作性能至关重要，而完全微调可能会适得其反。LoRA和分阶段机器人数据预训练等技术通过注入与动作相关的信号而不过度改变核心VLM，有望改善VLA初始化。
RESEARCH · CL_44097 · May 21 · 10:15

新框架揭示可见-红外视觉语言模型的漏洞

研究人员开发了CFGPatch，一个新颖的对抗性框架，旨在揭示可见-红外视觉语言模型（VLMs）的漏洞。该方法利用曲边分形几何和特定模态的渲染机制来创建对抗性补丁，从而干扰VLMs的形状和纹理感知。实验表明，CFGPatch能有效地欺骗这些模型，并在图像字幕和视觉问答等不同任务中表现出强大的可迁移性。
RESEARCH · CL_45084 · May 21 · 00:00

新基准和模型提升了自动驾驶的视觉语言模型能力

研究人员正在开发新的基准和模型，以提高视觉语言模型（VLMs）在自动驾驶中的能力。Drive-P2D 和 DriveSpatial 是新的基准，分别用于评估 VLM 在渐进式感知到决策任务和时空推理方面的能力，突显了当前场景构建和推理的局限性。同时，Fast-dDrive、SparseWorld 和 SpaceDrive 提出了新颖的 VLM 架构和方法，例如块扩散和空间感知注入，通过更好地平衡感知、规划和实时部署需求，来提高自动驾驶…
TOOL · CL_41900 · May 20 · 09:28

新的CRS框架通过结构化监督提升AI道路理解能力

研究人员开发了一个名为组合道路基底（CRS）的新框架，以改进自动驾驶的视觉推理能力。CRS整合了几何道路结构与开放词汇语义，能够实现比当前视觉语言模型更精确的道路理解。使用CRS增强场景训练小型模型，可显著提升其组合推理能力，将失败模式从关系理解转移到属性识别，表明结构化监督是关键，而非仅仅模型规模。

新的基准测试评估AI图像编辑器对真实世界光照物理学的掌握程度

新的Brain-Adapter框架利用VLM和LLM增强3D CT扫描诊断

新的AI安全护栏挑战推理必要性，提升多模态安全性

新的GAE模型增强了视觉语言模型到机器人动作的翻译

新的贝叶斯方法增强了分布偏移下的多标签识别能力

新方法改进视频中的机器人动作解读

新方法提升VLM对抗攻击的鲁棒性

新方法剪枝VLM标记以提高效率和相关性

新的EAGLE框架使多智能体VQA的视觉证据对齐

VLA-Pruner通过优化视觉令牌剪枝来增强具身AI的效率

新研究重新思考用于动作模型的VLM初始化

新框架揭示可见-红外视觉语言模型的漏洞

新基准和模型提升了自动驾驶的视觉语言模型能力

新的CRS框架通过结构化监督提升AI道路理解能力