实体 AudioSet-20K

AudioSet-20K

PulseAugur coverage of AudioSet-20K — every cluster mentioning AudioSet-20K across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_109976 · Jun 25 · 04:00

MJEPA架构通过统一编码器简化视听学习

研究人员推出了一种新颖的视听学习架构MJEPA，该架构使用单一的统一编码器来处理两种模态。这种方法通过采用单一的预测目标，在模态内部和跨模态进行操作，从而简化了现有方法。研究表明，跨模态预测至关重要，因为缺失跨模态预测会导致表示能力下降，而包含跨模态预测则通过利用另一种模态的优势，显著提升了每种模态的表示能力。MJEPA模型，特别是冻结的ViT-g变体，在AudioSet-20K和ESC-50等音频基准测试中表现出色，并且在视频任务上…
TOOL · CL_114374 · Jun 23 · 22:48

MJEPA：统一的视听学习架构揭晓

研究人员推出 MJEPA，这是一种新颖的联合嵌入预测架构，专为视听学习而设计。该方法使用单一的统一编码器来处理两种模态，通过在模态之间和模态内部使用单一的预测目标来简化学习过程。研究表明，跨模态预测对性能至关重要，MJEPA 的表征受益于跨模态学习。MJEPA 模型取得了优异的成果，在 AudioSet-20K 上超越了之前的冻结基线，并在其他基准测试中取得了有竞争力的性能，同时使用的视频数据量显著减少。