PulseAugur
实时 10:47:01
实体 visual search

visual search

PulseAugur coverage of visual search — every cluster mentioning visual search across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_115748 ·

    MLLMs利用内在不确定性提高视觉任务性能

    研究人员开发了一个新颖的无训练框架,该框架利用多模态大语言模型(MLLMs)的内在不确定性来增强其在复杂视觉任务上的性能。核心思想是,当MLLM接收到相关的视觉信息时,其不确定性会降低,从而使其能够专注于信息量最大的数据。这种方法已成功应用于视觉搜索、长视频理解和时间定位,在无需特定任务训练的情况下,取得了与专门的、微调的系统相媲美的结果。

  2. RESEARCH · CL_108054 ·

    视觉语言模型在鲁棒性、因果推理和视觉搜索方面接受测试

    研究人员正在从多个维度调查视觉语言模型(VLM)的鲁棒性和推理能力。一项研究引入了OCR-Robust,这是一个用于评估VLM在光学字符识别任务中对视觉扰动的韧性的基准,揭示了图表和表格等结构性元素特别脆弱。另一篇论文探讨了VLM在因果顺序推理方面的挣扎,发现它们尽管在物体识别方面表现出色,但由于训练数据中缺乏明确的因果表达,因此表现不佳。此外,一项研究检查了VLM执行视觉搜索任务的情况,将其“推理令牌”使用与人类反应时间进行比较,并…