实体
Venkata Pushpak Teja Menta
Venkata Pushpak Teja Menta
PulseAugur coverage of Venkata Pushpak Teja Menta — every cluster mentioning Venkata Pushpak Teja Menta across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
最近 · 第 1/1 页 · 共 3 条
-
AI 飞轮将印度语言 ASR 的小众实体识别准确率提高了 17 倍
研究人员开发了一种新颖的文本到语音 (TTS) 和语音到文本 (STT) 系统,称为“TTS-STT 飞轮”,以提高印度语言小众领域的自动语音识别 (ASR) 准确性。该系统合成实体密集型音频,成本低于 50 美元,然后用于微调现有模型。微调后的模型在泰卢固语的实体命中率 (EHR) 方面取得了显著改进,性能优于开源和商业系统。
-
LASE模型通过使嵌入信息语言无关来改进跨脚本语音克隆
研究人员开发了LASE(语言对抗说话人编码器),以改进多语言语音克隆。标准的编码器在不同脚本之间保持说话人身份时会遇到困难,特别是在将非印度语语音映射到印度语时。LASE采用了一种新颖的训练方法,结合了监督对比损失和梯度反转交叉熵目标,以创建语言信息无关但说话人信息相关的嵌入。该方法显著减小了跨脚本的身份差距,并以显著减少的训练数据增强了跨脚本说话人召回率。
-
Praxy Voice 以最小的干预实现了商业级印度语 TTS
研究人员开发了 Praxy Voice,一种使用预训练的非印度语模型来改进印度语文本到语音 (TTS) 的方法。该方法结合了用于脚本罗马化的 Brahmic Unified Phoneme Space (BUPS)、用于文本令牌预测器的 LoRA 适配器以及语音提示恢复技术。该方法在无需新的声码器训练或商业 TTS 数据的情况下,实现了泰卢固语、泰米尔语和印地语的商业级音频输出。