Voxceleb: Large-scale speaker verification in the wild
PulseAugur coverage of Voxceleb: Large-scale speaker verification in the wild — every cluster mentioning Voxceleb: Large-scale speaker verification in the wild across labs, papers, and developer communities, ranked by signal.
2 天有情绪数据
-
Naive System 报告详述 TdSV 挑战赛 2024 表现
一篇研究论文详细介绍了一个为 2024 年文本相关说话人验证(TdSV)挑战赛开发的系统,该系统实现了 0.0461 的最小检测代价函数(Minimum Detection Cost Function)和 1.3% 的等错误率(Equal Error Rate)。由于时间和资源限制,该系统采用了在 VoxCeleb 上预先训练的现有神经网络,如 ResNet-TDNN 和 NeXt-TDNN。此外,还训练了一个 EfficientNe…
-
IsoNet 利用视听线索在嘈杂环境中提取语音
研究人员开发了 IsoNet,一个在复杂声学环境中使用紧凑型 4 麦克风阵列提取目标语音的新颖系统。该视听系统集成了复杂的音频特征、空间线索以及来自面部跟踪的视觉嵌入,以增强语音提取。IsoNet 在语音提取质量方面表现出显著的改进,在低信噪比条件下优于传统的波束成形方法。
-
新方法为深度神经网络稀疏性提供自适应控制
研究人员开发了一种自适应正则化方法,以更好地控制深度神经网络中的稀疏性,解决了传统 $\ell_1$ 惩罚会间接影响稀疏率的挑战。该新方案根据模型当前稀疏率与目标稀疏率之间的差异动态调整正则化参数。在说话人验证任务上的实验表明,与密集模型相比,自适应方法能够可靠地实现 75% 到 99% 之间的稀疏性目标,在早期训练中收敛更快,并保持了更好的分布外鲁棒性。