实体 Visual-Redundancy-Controlled Decoding

Visual-Redundancy-Controlled Decoding

PulseAugur coverage of Visual-Redundancy-Controlled Decoding — every cluster mentioning Visual-Redundancy-Controlled Decoding across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_50673 · May 25 · 13:16

新基准和方法推动多模态大语言模型能力发展

研究人员正在开发新的多模态大语言模型（MLLMs）方法，以提高它们对顺序音视频数据和大规模视觉识别的理解能力。一种方法DLLM-VSR使用扩散模型进行视觉语音识别，通过迭代去噪和解码转录文本取得了最先进的成果。另一篇论文介绍了SONIC-O1，这是一个用于评估MLLMs在真实世界音视频理解能力的基准，突出了不同人口群体之间的性能差异。此外，还在探索用于MLLMs高效训练和推理的新技术，包括用于训练的异构并行以及用于推理的“分而治之”策…

新基准和方法推动多模态大语言模型能力发展