实体 VideoLatent

VideoLatent

PulseAugur coverage of VideoLatent — every cluster mentioning VideoLatent across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_106812 · Jun 22 · 05:29

VideoLatent MLLM 通过高效的潜在自强制增强视频推理能力

研究人员开发了 VideoLatent，这是一种新颖的多模态大语言模型（MLLM），旨在增强视频理解和推理能力。与需要大量标注或计算成本高昂的先前方法不同，VideoLatent 采用了一种新颖的潜在自强制训练范式。该方法包括潜在对齐和多样性目标，仅依赖标准的视频-问答三元组，使其更具可扩展性和效率。在 14 个基准测试上的实验表明，VideoLatent 的性能优于现有模型，与 Video-R1 等模型相比，在训练和推理开销方面有显著降低。