实体 Long Video Understanding

Long Video Understanding

PulseAugur coverage of Long Video Understanding — every cluster mentioning Long Video Understanding across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_115748 · Jun 29 · 04:00

MLLMs利用内在不确定性提高视觉任务性能

研究人员开发了一个新颖的无训练框架，该框架利用多模态大语言模型（MLLMs）的内在不确定性来增强其在复杂视觉任务上的性能。核心思想是，当MLLM接收到相关的视觉信息时，其不确定性会降低，从而使其能够专注于信息量最大的数据。这种方法已成功应用于视觉搜索、长视频理解和时间定位，在无需特定任务训练的情况下，取得了与专门的、微调的系统相媲美的结果。

MLLMs利用内在不确定性提高视觉任务性能