English(EN) BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Approach for Self-Supervised Audio Representations

新的自监督音频模型BEST-RQ-2改进了迁移学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 04:00

研究人员推出了BEST-RQ-2，这是自监督音频表示学习的一项进展。这种新方法采用两步预训练方法，将上下文化和预测阶段分开。通过为未遮蔽区域使用ViT上下文编码器，为遮蔽区域使用轻量级预测器，BEST-RQ-2在X-ARES和XARES-LLM等基准测试上表现优于单阶段方法，同时保持可比的推理计算。该模型的代码和检查点均公开可用。 AI

影响引入了一种新颖的自监督音频学习方法，有望提高各种音频任务和基准测试的性能。

排序理由该集群包含一篇详细介绍自监督音频表示新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ludovic K. Tuncay (IRIT-SAMoVA), Etienne Labb\'e (IRIT-SAMoVA), Thomas Pellegrini (IRIT-SAMoVA) · 2026-07-01 04:00

BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Approach for Self-Supervised Audio Representations

arXiv:2606.30700v1 Announce Type: cross Abstract: Self-supervised learning enables audio representations that transfer across domains and tasks. We present BEST-RQ-2, an evolution of BEST-RQ that retains frozen randomprojection-based discrete targets while introducing a two-step …

报道来源 [1]

BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Approach for Self-Supervised Audio Representations

相关实体

相关话题