PulseAugur
实时 21:19:27
实体 Text To Speech

Text To Speech

PulseAugur coverage of Text To Speech — every cluster mentioning Text To Speech across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
9
90 天内 9
发布 · 30天
0
90 天内 0
论文 · 30天
7
90 天内 7
层级分布 · 90 天
主题
情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 9 条
  1. TOOL · CL_79909 ·

    端到端训练统一TTS组件,提升语音生成效果

    研究人员开发了一种新颖的、基于离散Token的大语言模型(LLM)的语音合成(TTS)系统的端到端训练框架。与之前独立训练的级联系统不同,该方法统一了语音分词器、LLM、流匹配模型和奖励模型的训练。联合优化鼓励离散语音Token空间更好地捕捉声学和语义信息,从而改善TTS生成效果。实验表明,这种端到端方法在Seed-TTS-Eval基准测试上取得了最先进的成果,并且使用的LLM规模显著减小。

  2. TOOL · CL_69223 ·

    通义实验室发布榜首STT/TTS模型,开源权重受质疑

    通义实验室发布了新的语音识别(STT)和语音合成(TTS)模型,据报道这些模型已位居榜首。这些模型是在没有大张旗鼓宣传的情况下发布的,这引发了社区关于它们是否会开源权重的疑问。此次发布标志着该实验室在语音技术方面取得了重大进展。

  3. RESEARCH · CL_68139 ·

    LLMs生成合成对话以促进ASR训练

    研究人员开发了一种新颖的方法,通过生成合成对话数据来增强低资源语言的自动语音识别(ASR)训练。该流程使用LLMs创建对话,将说话者属性映射到TTS语音配置文件,并组装模拟对话。在匈牙利BEA-Dialogue基准上的评估表明,这种合成数据显著提高了ASR性能,甚至优于在更大真实数据集上训练的模型。

  4. TOOL · CL_19446 ·

    AMD EPYC CPU 在 LLM 和 TTS 推理工作负载上表现出竞争力

    Leaseweb 近期的一项分析对 AMD EPYC 9334 CPU 在大型语言模型 (LLM) 和文本转语音 (TTS) 推理工作负载上的性能进行了基准测试。研究表明,虽然 GPU 提供更高的吞吐量,但 CPU 可以是推理的经济高效且可预测的选择,尤其是在考虑延迟和每查询成本等因素时。基准测试突显了量化的影响,Q4 模型在 CPU 上的吞吐量明显优于 FP16,并且还与参考 Nvidia L4 GPU 比较了首次令牌时间 (TTF…

  5. RESEARCH · CL_13577 ·

    Sakana AI 的 KAME 架构在不引入延迟的情况下将 LLM 知识注入语音 AI

    Sakana AI 开发了 KAME,一种新颖的语音到语音 AI 串联架构,旨在结合直接系统的速度和基于 LLM 方法的知识深度。KAME 由两个异步组件运行:前端生成即时响应,后端 LLM 实时注入更丰富的知识。这使得系统能够在句子中间更新其响应,模仿人类对话调整而不会引入明显延迟。

  6. RESEARCH · CL_09296 ·

    塔马西特语单语种语音数据集在 Hugging Face 上发布

    一个针对塔马西特语的新单语种语音数据集已在 Hugging Face 和 Mozilla Data Collective 上发布。该数据集旨在用于人工智能应用,例如自动语音识别 (ASR) 和文本转语音 (TTS) 系统。此次发布旨在支持代表性不足的语言的人工智能工具的开发。

  7. RESEARCH · CL_08610 ·

    研究人员通过LLM释义和语音合成增强老年人ASR

    研究人员开发了一种新颖的数据增强技术,以改进老年人的自动语音识别(ASR)。该方法利用大型语言模型释义现有文本,生成老年人上下文的变体。然后,使用具有老年参考说话人的文本到语音合成将这些释义文本转换为合成语音。实验表明,与基线模型相比,词错误率显著降低,最高可提高58.2%。

  8. RESEARCH · CL_08270 ·

    新基准评估六维度的印度语言TTS口音保真度

    研究人员推出PSP,一个旨在评估印度语言文本到语音(TTS)系统口音准确性的新基准。与关注清晰度和自然度的现有指标不同,PSP通过将其分解为六个不同的维度来专门衡量口音,包括卷舌音合并和韵律特征发散。对ElevenLabs v3和Sarvam Bulbul等系统的初步测试显示,在词错误率方面表现最佳的系统不一定在口音保真度方面表现出色,这凸显了对更细致评估方法的需求。

  9. RESEARCH · CL_02967 ·

    新研究评估了 7 个针对 10 种印度语言的 TTS 系统

    研究人员开发了一个新的框架来评估印度语言的文本转语音(TTS)系统,解决了众包评估中通常出现的高方差问题。该框架使用跨越 10 种印度语言的受控、多维度成对比较,收集了来自 1900 多名母语人士的 120,000 多条判断。该研究评估了七个最先进的 TTS 系统,分析了跨越六个感知维度(如可懂度和语音质量)的偏好,以创建一个多语言排行榜并理解模型权衡。