实体
SwanBench-Speech
SwanBench-Speech
PulseAugur coverage of SwanBench-Speech — every cluster mentioning SwanBench-Speech across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
SwanVoice 实现富有表现力的多说话人对话合成
研究人员开发了 SwanVoice,一种新颖的零样本文本到语音系统,能够为多位说话人生成富有表现力的长篇对话。该系统结合了 VAE、流匹配 DiT 和扩散后训练技术,并基于一个名为 SwanData-Speech 的新数据集。SwanVoice 旨在克服对话轮次之间声学一致性和情感连续性的局限性,在 SwanBench-Speech 基准测试中,其丰富性和层次性优于现有的开源基线,但内容准确性仍被认为是尚待解决的挑战。
-
新研究解决语音模型效率和适应性问题
研究人员开发了新方法来提高语音处理模型的效率和性能。FastSLM引入了分层时间抽象器,可在保留关键声学细节的同时显著压缩音频数据,以更少的资源超越了最先进的模型。SALSA提供了一种轻量级的语音感知大型语言模型的适应技术,通过学习特定的引导向量来增强其对多样化和域外语音的泛化能力。此外,一种新颖的训练优化方法允许对语音模型的性能和计算复杂度进行联合调整,从而无需事后剪枝即可实现动态尺寸优化。