实体 Venkata Pushpak Teja Menta

Venkata Pushpak Teja Menta

PulseAugur coverage of Venkata Pushpak Teja Menta — every cluster mentioning Venkata Pushpak Teja Menta across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 3 条

RESEARCH · CL_18277 · May 4 · 18:43

AI 飞轮将印度语言 ASR 的小众实体识别准确率提高了 17 倍

研究人员开发了一种新颖的文本到语音 (TTS) 和语音到文本 (STT) 系统，称为“TTS-STT 飞轮”，以提高印度语言小众领域的自动语音识别 (ASR) 准确性。该系统合成实体密集型音频，成本低于 50 美元，然后用于微调现有模型。微调后的模型在泰卢固语的实体命中率 (EHR) 方面取得了显著改进，性能优于开源和商业系统。
RESEARCH · CL_14111 · May 1 · 16:46

LASE模型通过使嵌入信息语言无关来改进跨脚本语音克隆

研究人员开发了LASE（语言对抗说话人编码器），以改进多语言语音克隆。标准的编码器在不同脚本之间保持说话人身份时会遇到困难，特别是在将非印度语语音映射到印度语时。LASE采用了一种新颖的训练方法，结合了监督对比损失和梯度反转交叉熵目标，以创建语言信息无关但说话人信息相关的嵌入。该方法显著减小了跨脚本的身份差距，并以显著减少的训练数据增强了跨脚本说话人召回率。
RESEARCH · CL_08273 · Apr 28 · 09:50

Praxy Voice 以最小的干预实现了商业级印度语 TTS

研究人员开发了 Praxy Voice，一种使用预训练的非印度语模型来改进印度语文本到语音 (TTS) 的方法。该方法结合了用于脚本罗马化的 Brahmic Unified Phoneme Space (BUPS)、用于文本令牌预测器的 LoRA 适配器以及语音提示恢复技术。该方法在无需新的声码器训练或商业 TTS 数据的情况下，实现了泰卢固语、泰米尔语和印地语的商业级音频输出。

AI 飞轮将印度语言 ASR 的小众实体识别准确率提高了 17 倍

LASE模型通过使嵌入信息语言无关来改进跨脚本语音克隆

Praxy Voice 以最小的干预实现了商业级印度语 TTS