English(EN) HorusEye: Language as Dynamic Attention for Emergency Visual Analysis

HorusEye框架将语言作为动态注意力用于紧急情况视觉分析

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

一篇新研究论文介绍了HorusEye，一个专为紧急情况视觉分析设计的框架，它将语言视为动态注意力。该研究在模拟雾、烟和热成像等条件的退化数据集上对Gemini、Qwen2-VL、BLIP-2、LLaVA和Kosmos-2等多种视觉语言模型（VLMs）进行了基准测试。主要发现表明，语言反馈在不同VLMs上对模型性能有显著不同的影响，Gemini在热成像条件下表现出显著改进，而Qwen2-VL则性能下降。研究还强调了一个“热成像悖论”，即对于RGB有效的图像裁剪策略在热成像中失效，并指出BLIP-2在退化条件下会产生独特的更多幻觉。 AI

影响引入了一种新颖的紧急情况视觉分析方法，突出了模型在退化条件下的特定性能差异和挑战。

排序理由介绍新框架并在新数据集上评估现有模型的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Armel Yara · 2026-06-16 04:00

HorusEye: Language as Dynamic Attention for Emergency Visual Analysis

arXiv:2606.14741v1 Announce Type: cross Abstract: We introduce HorusEye, Language as Dynamic Attention for Emergency Visual Analysis. Our investigation followed five stages. The first one is benchmarking RefCOCO-Degraded, a dataset of 15,244 images (3,811 base images x 4 conditio…

报道来源 [1]

HorusEye: Language as Dynamic Attention for Emergency Visual Analysis

相关实体

相关话题