实体
Nityanand Mathur
Nityanand Mathur
PulseAugur coverage of Nityanand Mathur — every cluster mentioning Nityanand Mathur across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新方法揭示风格指令如何塑造文本到语音输出
研究人员开发了一种新方法,用于理解自然语言指令如何影响风格字幕文本到语音(TTS)系统的输出。通过将DAAM框架应用于语音扩散模型,该研究分析了风格字幕中的特定词语如何塑造生成的波形。研究结果表明,风格标记比内容标记具有更低的时间方差,并且它们的影响在生成早期阶段和模型的深层中达到峰值。
-
FlowEdit 实现 TTS 模型终身发音适应
研究人员开发了 FlowEdit,一个新颖的框架,旨在使冻结的流匹配文本到语音(TTS)系统能够进行终身发音纠正。FlowEdit 不会重新训练整个模型,而是在文本嵌入空间中将发音调整学习为潜在编辑。这些纠正存储在现代 Hopfield 网络中,充当联想记忆,并在推理过程中通过软注意力检索。这种方法显著减少了专有名词的发音错误,在多语言基准测试中语音错误率(Phoneme Error Rate)相对降低了 92.7%,同时保持了整体语音质量。