实体 video multimodal large language models

video multimodal large language models

PulseAugur coverage of video multimodal large language models — every cluster mentioning video multimodal large language models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_65632 · Jun 1 · 17:32

新基准揭示视频大语言模型在处理短暂视觉事件方面存在困难

研究人员推出了 Moment-Video，这是一个旨在评估视频多模态大语言模型（MLLMs）时间保真度的新基准。该基准侧重于模型理解当前采样和压缩技术可能遗漏的短暂、关键视觉事件的能力。对 33 个 MLLMs 的评估显示，即使是表现最好的 Seed-2.0-Pro，准确率也仅为 39.6%，这凸显了它们在处理和利用瞬时视觉信息方面的能力存在显著差距。

新基准揭示视频大语言模型在处理短暂视觉事件方面存在困难