PulseAugur
实时 15:24:22
实体 Visual-Redundancy-Controlled Decoding

Visual-Redundancy-Controlled Decoding

PulseAugur coverage of Visual-Redundancy-Controlled Decoding — every cluster mentioning Visual-Redundancy-Controlled Decoding across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_50673 ·

    新基准和方法推动多模态大语言模型能力发展

    研究人员正在开发新的多模态大语言模型(MLLMs)方法,以提高它们对顺序音视频数据和大规模视觉识别的理解能力。一种方法DLLM-VSR使用扩散模型进行视觉语音识别,通过迭代去噪和解码转录文本取得了最先进的成果。另一篇论文介绍了SONIC-O1,这是一个用于评估MLLMs在真实世界音视频理解能力的基准,突出了不同人口群体之间的性能差异。此外,还在探索用于MLLMs高效训练和推理的新技术,包括用于训练的异构并行以及用于推理的“分而治之”策…