PulseAugur
实时 18:03:25
实体 Venkata Pushpak Teja Menta

Venkata Pushpak Teja Menta

PulseAugur coverage of Venkata Pushpak Teja Menta — every cluster mentioning Venkata Pushpak Teja Menta across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
最近 · 第 1/1 页 · 共 3 条
  1. RESEARCH · CL_18277 ·

    AI 飞轮将印度语言 ASR 的小众实体识别准确率提高了 17 倍

    研究人员开发了一种新颖的文本到语音 (TTS) 和语音到文本 (STT) 系统,称为“TTS-STT 飞轮”,以提高印度语言小众领域的自动语音识别 (ASR) 准确性。该系统合成实体密集型音频,成本低于 50 美元,然后用于微调现有模型。微调后的模型在泰卢固语的实体命中率 (EHR) 方面取得了显著改进,性能优于开源和商业系统。

  2. RESEARCH · CL_14111 ·

    LASE模型通过使嵌入信息语言无关来改进跨脚本语音克隆

    研究人员开发了LASE(语言对抗说话人编码器),以改进多语言语音克隆。标准的编码器在不同脚本之间保持说话人身份时会遇到困难,特别是在将非印度语语音映射到印度语时。LASE采用了一种新颖的训练方法,结合了监督对比损失和梯度反转交叉熵目标,以创建语言信息无关但说话人信息相关的嵌入。该方法显著减小了跨脚本的身份差距,并以显著减少的训练数据增强了跨脚本说话人召回率。

  3. RESEARCH · CL_08273 ·

    Praxy Voice 以最小的干预实现了商业级印度语 TTS

    研究人员开发了 Praxy Voice,一种使用预训练的非印度语模型来改进印度语文本到语音 (TTS) 的方法。该方法结合了用于脚本罗马化的 Brahmic Unified Phoneme Space (BUPS)、用于文本令牌预测器的 LoRA 适配器以及语音提示恢复技术。该方法在无需新的声码器训练或商业 TTS 数据的情况下,实现了泰卢固语、泰米尔语和印地语的商业级音频输出。