实体 Text To Speech

Text To Speech

PulseAugur coverage of Text To Speech — every cluster mentioning Text To Speech across labs, papers, and developer communities, ranked by signal.

总计 · 30天

4

90 天内 15

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 9

层级分布 · 90 天

significant 1
research 4
tool 10

主题

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 15 条

TOOL · CL_148782 · Jul 17 · 15:39

旅行科技公司推出 AI 酒店培训师供公众测试

Travel Technology Solutions (TTS) 推出了 WALT 2.0，这是一款专为酒店业设计的 AI 驱动的培训教练。该工具现已可供公众测试，TTS 正在寻求用户反馈以改进未来版本。该公司还在展示其他由 AI 驱动的项目，包括气候工具和移动旅行应用程序，所有这些都可以通过其评估门户访问。
TOOL · CL_132412 · Jul 8 · 15:01

语音AI平台为企业应对客户服务挑战提供解决方案

语音AI平台正成为解决企业客户服务等待时间长和联系中心人员流失率高问题的实用方案。这些平台利用自动语音识别（ASR）、自然语言理解（NLU）、文本转语音（TTS）和对话管理，从头到尾处理客户对话，或者至少处理到需要人工介入的程度。与旧式的电话菜单系统不同，语音AI能够理解意图并适应对话的细微差别，并且通过持续学习不断提高性能，而无需企业具备内部技术专长。
TOOL · CL_127163 · Jul 6 · 07:02

语音AI服务因数据库连接池过小而崩溃

一家语音AI服务公司在与新合作伙伴的集成后，由于预料之外的电话量激增，并发呼叫数达到约200个，导致系统出现严重中断。该系统依赖持久连接进行语音识别（STT）、语音合成（TTS）、模型交互和数据库状态管理，但由于PostgreSQL连接池过小而失效。这种瓶颈导致电话挂断或在通话中途掉线，因为被阻塞的数据库请求阻止了其他进程的推进。修复方法包括增加连接池大小和实施显式的并发门控来管理资源分配。
RESEARCH · CL_126268 · Jun 30 · 16:53

新的卢森堡语SQA系统使用TTS，发布新的表达式语音语料库

研究人员开发了LuxSQA，一个用于卢森堡语（一种资源匮乏的语言）的口语问答系统。该系统利用文本到语音（TTS）技术生成合成口语问题，扩充了现有的基于文本的QA资源。通过使用多种TTS系统训练参数高效的架构，LuxSQA在卢森堡语测试集上取得了优异的性能，证明了合成数据在资源匮乏的SQA中的有效性。另外，一个名为LuxEmo的新的卢森堡语表达式语音语料库已从广播节目中创建，包含21小时的数据，涵盖四种情绪类别，并使用五种TTS系统进行了基准测试。
TOOL · CL_105160 · Jun 22 · 11:14

新的 TTS 模型模拟人类 Lombard 效应以提高语音清晰度

研究人员开发了一种新的文本到语音 (TTS) 模型，该模型可以模拟 Lombard 效应，即人类在嘈杂环境中说话声音更大、更清晰的现象。该模型利用流匹配和伪标签来控制发声努力和发音，从而实现对这些语音特征的连续控制。这使得能够进行单词级别的强调，并在模拟的嘈杂条件下提高了清晰度和可懂度。
TOOL · CL_79909 · Jun 9 · 04:00

端到端训练统一TTS组件，提升语音生成效果

研究人员开发了一种新颖的、基于离散Token的大语言模型（LLM）的语音合成（TTS）系统的端到端训练框架。与之前独立训练的级联系统不同，该方法统一了语音分词器、LLM、流匹配模型和奖励模型的训练。联合优化鼓励离散语音Token空间更好地捕捉声学和语义信息，从而改善TTS生成效果。实验表明，这种端到端方法在Seed-TTS-Eval基准测试上取得了最先进的成果，并且使用的LLM规模显著减小。
TOOL · CL_69223 · Jun 3 · 16:29

通义实验室发布榜首STT/TTS模型，开源权重受质疑

通义实验室发布了新的语音识别（STT）和语音合成（TTS）模型，据报道这些模型已位居榜首。这些模型是在没有大张旗鼓宣传的情况下发布的，这引发了社区关于它们是否会开源权重的疑问。此次发布标志着该实验室在语音技术方面取得了重大进展。
RESEARCH · CL_68139 · Jun 2 · 17:46

LLMs生成合成对话以促进ASR训练

研究人员开发了一种新颖的方法，通过生成合成对话数据来增强低资源语言的自动语音识别（ASR）训练。该流程使用LLMs创建对话，将说话者属性映射到TTS语音配置文件，并组装模拟对话。在匈牙利BEA-Dialogue基准上的评估表明，这种合成数据显著提高了ASR性能，甚至优于在更大真实数据集上训练的模型。
SIGNIFICANT · CL_55755 · May 28 · 03:04

阿里巴巴AI语音模型在Speech Arena上排名全球第五、中国第一

阿里巴巴的新AI语音模型Fun-Realtime-TTS-Preview在Speech Arena基准测试中取得了全球顶尖排名，位列全球第五、中国第一。该模型在语音识别（ASR）、语音合成（TTS）以及端到端的语音理解和对话（Chat）等多种语音能力方面表现强劲。值得注意的是，阿里巴巴的ASR模型在另一项评估中也实现了最低的词错误率，凸显了其转录语音的准确性。
TOOL · CL_19446 · May 6 · 13:58

AMD EPYC CPU 在 LLM 和 TTS 推理工作负载上表现出竞争力

Leaseweb 近期的一项分析对 AMD EPYC 9334 CPU 在大型语言模型 (LLM) 和文本转语音 (TTS) 推理工作负载上的性能进行了基准测试。研究表明，虽然 GPU 提供更高的吞吐量，但 CPU 可以是推理的经济高效且可预测的选择，尤其是在考虑延迟和每查询成本等因素时。基准测试突显了量化的影响，Q4 模型在 CPU 上的吞吐量明显优于 FP16，并且还与参考 Nvidia L4 GPU 比较了首次令牌时间 (TTF…
RESEARCH · CL_13577 · May 3 · 07:47

Sakana AI 的 KAME 架构在不引入延迟的情况下将 LLM 知识注入语音 AI

Sakana AI 开发了 KAME，一种新颖的语音到语音 AI 串联架构，旨在结合直接系统的速度和基于 LLM 方法的知识深度。KAME 由两个异步组件运行：前端生成即时响应，后端 LLM 实时注入更丰富的知识。这使得系统能够在句子中间更新其响应，模仿人类对话调整而不会引入明显延迟。
RESEARCH · CL_09296 · Apr 29 · 16:36

塔马西特语单语种语音数据集在 Hugging Face 上发布

一个针对塔马西特语的新单语种语音数据集已在 Hugging Face 和 Mozilla Data Collective 上发布。该数据集旨在用于人工智能应用，例如自动语音识别 (ASR) 和文本转语音 (TTS) 系统。此次发布旨在支持代表性不足的语言的人工智能工具的开发。
RESEARCH · CL_08610 · Apr 29 · 04:00

研究人员通过LLM释义和语音合成增强老年人ASR

研究人员开发了一种新颖的数据增强技术，以改进老年人的自动语音识别（ASR）。该方法利用大型语言模型释义现有文本，生成老年人上下文的变体。然后，使用具有老年参考说话人的文本到语音合成将这些释义文本转换为合成语音。实验表明，与基线模型相比，词错误率显著降低，最高可提高58.2%。
RESEARCH · CL_08270 · Apr 28 · 10:28

新基准评估六维度的印度语言TTS口音保真度

研究人员推出PSP，一个旨在评估印度语言文本到语音（TTS）系统口音准确性的新基准。与关注清晰度和自然度的现有指标不同，PSP通过将其分解为六个不同的维度来专门衡量口音，包括卷舌音合并和韵律特征发散。对ElevenLabs v3和Sarvam Bulbul等系统的初步测试显示，在词错误率方面表现最佳的系统不一定在口音保真度方面表现出色，这凸显了对更细致评估方法的需求。
RESEARCH · CL_02967 · Apr 23 · 09:44

新研究评估了 7 个针对 10 种印度语言的 TTS 系统

研究人员开发了一个新的框架来评估印度语言的文本转语音（TTS）系统，解决了众包评估中通常出现的高方差问题。该框架使用跨越 10 种印度语言的受控、多维度成对比较，收集了来自 1900 多名母语人士的 120,000 多条判断。该研究评估了七个最先进的 TTS 系统，分析了跨越六个感知维度（如可懂度和语音质量）的偏好，以创建一个多语言排行榜并理解模型权衡。