PulseAugur
实时 16:37:54
实体 video multimodal large language models

video multimodal large language models

PulseAugur coverage of video multimodal large language models — every cluster mentioning video multimodal large language models across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_65632 ·

    新基准揭示视频大语言模型在处理短暂视觉事件方面存在困难

    研究人员推出了 Moment-Video,这是一个旨在评估视频多模态大语言模型(MLLMs)时间保真度的新基准。该基准侧重于模型理解当前采样和压缩技术可能遗漏的短暂、关键视觉事件的能力。对 33 个 MLLMs 的评估显示,即使是表现最好的 Seed-2.0-Pro,准确率也仅为 39.6%,这凸显了它们在处理和利用瞬时视觉信息方面的能力存在显著差距。