实体 Voxceleb: Large-scale speaker verification in the wild

Voxceleb: Large-scale speaker verification in the wild

PulseAugur coverage of Voxceleb: Large-scale speaker verification in the wild — every cluster mentioning Voxceleb: Large-scale speaker verification in the wild across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 5

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

论文 5
其他 4
模型发布 1

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

RESEARCH · CL_119387 · Jun 30 · 13:42

新的Q-Margin损失通过概率边距增强生物识别

研究人员推出了一种新颖的$\alpha$-散度损失函数Q-Margin，旨在改进生物识别系统。与将几何惩罚应用于logits的传统方法不同，这种新损失函数将一个原则性的概率边距直接编码到先验概率中。Q-Margin旨在鼓励区分性嵌入同时保持稀疏性，从而在人脸和说话人识别基准测试的低错误接受率下提高性能。
TOOL · CL_111729 · Jun 26 · 04:00

新型神经说话人分割模型在低资源尼泊尔-印地语语音上表现优异

研究人员开发了一种新的说话人分割方法，即在音频录音中识别谁在何时说话，特别针对尼泊尔-印地语等低资源语言。他们使用了一个包含英语、多样化说话人录音以及新收集的尼泊尔语和印地语音频的多语言数据集，训练了两种神经网络架构：EEND-EDA 和 DiaPer。利用基于 Perceiver 的吸引子（attractors）的 DiaPer 模型表现出卓越的性能，在尼泊尔-印地语测试集上实现了比 EEND-EDA 模型显著更低的说话人分割错误率…
TOOL · CL_32734 · May 14 · 14:38

Naive System 报告详述 TdSV 挑战赛 2024 表现

一篇研究论文详细介绍了一个为 2024 年文本相关说话人验证（TdSV）挑战赛开发的系统，该系统实现了 0.0461 的最小检测代价函数（Minimum Detection Cost Function）和 1.3% 的等错误率（Equal Error Rate）。由于时间和资源限制，该系统采用了在 VoxCeleb 上预先训练的现有神经网络，如 ResNet-TDNN 和 NeXt-TDNN。此外，还训练了一个 EfficientNe…
TOOL · CL_36923 · May 14 · 12:00

IsoNet 利用视听线索在嘈杂环境中提取语音

研究人员开发了 IsoNet，一个在复杂声学环境中使用紧凑型 4 麦克风阵列提取目标语音的新颖系统。该视听系统集成了复杂的音频特征、空间线索以及来自面部跟踪的视觉嵌入，以增强语音提取。IsoNet 在语音提取质量方面表现出显著的改进，在低信噪比条件下优于传统的波束成形方法。
TOOL · CL_26332 · May 8 · 15:37

新方法为深度神经网络稀疏性提供自适应控制

研究人员开发了一种自适应正则化方法，以更好地控制深度神经网络中的稀疏性，解决了传统 $\ell_1$ 惩罚会间接影响稀疏率的挑战。该新方案根据模型当前稀疏率与目标稀疏率之间的差异动态调整正则化参数。在说话人验证任务上的实验表明，与密集模型相比，自适应方法能够可靠地实现 75% 到 99% 之间的稀疏性目标，在早期训练中收敛更快，并保持了更好的分布外鲁棒性。

新的Q-Margin损失通过概率边距增强生物识别

新型神经说话人分割模型在低资源尼泊尔-印地语语音上表现优异

Naive System 报告详述 TdSV 挑战赛 2024 表现

IsoNet 利用视听线索在嘈杂环境中提取语音

新方法为深度神经网络稀疏性提供自适应控制