PulseAugur
实时 22:24:34
实体 AudioSet-20K

AudioSet-20K

PulseAugur coverage of AudioSet-20K — every cluster mentioning AudioSet-20K across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_109976 ·

    MJEPA架构通过统一编码器简化视听学习

    研究人员推出了一种新颖的视听学习架构MJEPA,该架构使用单一的统一编码器来处理两种模态。这种方法通过采用单一的预测目标,在模态内部和跨模态进行操作,从而简化了现有方法。研究表明,跨模态预测至关重要,因为缺失跨模态预测会导致表示能力下降,而包含跨模态预测则通过利用另一种模态的优势,显著提升了每种模态的表示能力。MJEPA模型,特别是冻结的ViT-g变体,在AudioSet-20K和ESC-50等音频基准测试中表现出色,并且在视频任务上…

  2. TOOL · CL_114374 ·

    MJEPA:统一的视听学习架构揭晓

    研究人员推出 MJEPA,这是一种新颖的联合嵌入预测架构,专为视听学习而设计。该方法使用单一的统一编码器来处理两种模态,通过在模态之间和模态内部使用单一的预测目标来简化学习过程。研究表明,跨模态预测对性能至关重要,MJEPA 的表征受益于跨模态学习。MJEPA 模型取得了优异的成果,在 AudioSet-20K 上超越了之前的冻结基线,并在其他基准测试中取得了有竞争力的性能,同时使用的视频数据量显著减少。