PulseAugur
实时 13:30:22
English(EN) HorusEye: Language as Dynamic Attention for Emergency Visual Analysis

HorusEye框架将语言作为动态注意力用于紧急情况视觉分析

一篇新研究论文介绍了HorusEye,一个专为紧急情况视觉分析设计的框架,它将语言视为动态注意力。该研究在模拟雾、烟和热成像等条件的退化数据集上对Gemini、Qwen2-VLBLIP-2、LLaVA和Kosmos-2等多种视觉语言模型(VLMs)进行了基准测试。主要发现表明,语言反馈在不同VLMs上对模型性能有显著不同的影响,Gemini在热成像条件下表现出显著改进,而Qwen2-VL则性能下降。研究还强调了一个“热成像悖论”,即对于RGB有效的图像裁剪策略在热成像中失效,并指出BLIP-2在退化条件下会产生独特的更多幻觉。 AI

影响 引入了一种新颖的紧急情况视觉分析方法,突出了模型在退化条件下的特定性能差异和挑战。

排序理由 介绍新框架并在新数据集上评估现有模型的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Armel Yara ·

    HorusEye: Language as Dynamic Attention for Emergency Visual Analysis

    arXiv:2606.14741v1 Announce Type: cross Abstract: We introduce HorusEye, Language as Dynamic Attention for Emergency Visual Analysis. Our investigation followed five stages. The first one is benchmarking RefCOCO-Degraded, a dataset of 15,244 images (3,811 base images x 4 conditio…