speech synthesis · PulseAugur

语音合成评估受自动语音识别家族对齐干扰，提出新的集成方法

研究人员发现，在使用自动语音识别（ASR）验证器评估文本到语音（TTS）系统时存在一个重大的混淆因素。这些验证器的表面质量很大程度上受用于判断的ASR家族影响，导致排名颠倒和性能指标虚高。为解决此问题，该论文提出跨家族排名集成方法，该方法可实现更低的词错误率，并在其他指标上保持性能，建议进行跨评估器三角测量以获得稳健的报告。

RESEARCH · CL_135192 · Jul 9 · 08:07

Qwen-ASR-1.7B适配多语种双人语音识别 · 跟踪2个来源

研究人员为MLC-SLM 2026挑战赛开发了一个系统，该系统将Qwen3-ASR-1.7B模型适配于多语种、双人对话语音。该系统将说话人日志前端与适配后的ASR模型集成，处理语音活动、说话人嵌入和音频分割。适配技术包括监督微调、使用合成语音的LoRA微调以及GRPO强化学习，这些技术共同将开发集上的词错误率降低了6.83个百分点，并在评估集上达到了17.97 tcpMER。

RESEARCH · CL_131317 · Jul 7 · 16:22

WordVoice框架为基于LLM的TTS提供显式、多维度的单词级控制

研究人员推出WordVoice，一个旨在增强对基于大型语言模型（LLM）的文本到语音（TTS）系统控制的新型框架。该系统通过实现显式的、多维度的单词级声学操控，解决了当前隐式生成方法的局限性。为此，创建了一个名为WordVoice-5A的实质性双语数据集，其中包含五维的单词级标注。WordVoice框架包含一个用于声学规划的绑定令牌机制和一个用于弥合离散令牌与连续波形之间差距的细粒度调制模块，在保持合成稳定性的同时提供了卓越的控制。

RESEARCH · CL_128434 · Jul 6 · 16:21

新框架ProPS从文本提示合成说话人嵌入

研究人员开发了ProPS，一个用于合成由自然语言提示条件化的说话人嵌入的新框架。该系统将说话人资料的文本描述转换为句子嵌入，然后指导混合密度网络在x-vector空间中预测高斯混合模型。ProPS已证明其能够生成准确反映所需属性（如年龄、性别、口音和韵律）的说话人嵌入分布，使其对于文本到语音（Text-To-Speech）和语音转换（Voice Conversion）等可控语音生成系统具有价值。

TOOL · CL_120829 · Jul 1 · 21:51

语音助手可观测性差距隐藏着关键的音频层故障

语音助手的可观测性工具通常只关注LLM组件，忽略了关键的音频层故障。这些故障，如过早的结束说话检测或缓慢的抢话检测，即使LLM表现完美，也可能导致通话在句子未完时中断。开发者需要为ASR延迟、置信度分数、抢话检测和首次音频时间等仪器化自定义跨度，以全面了解语音助手的性能。

TOOL · CL_121158 · Jul 1 · 13:46

新研究探讨语音合成模型中情感引导的几何特性

研究人员提出了一项新研究，探讨了文本到语音（TTS）系统中情感控制的几何特性。该研究将语音语言模型（SLM）和条件流匹配（CFM）模块作为语音合成中引导混合情感的载体。研究结果表明，SLM为情感提供了一个独特、低维度的子空间，具有良好的说话人-情感解耦性，而CFM模块由于说话人和情感表示的纠缠，跨说话人性能较弱。联合引导可以增强情感强度，但可能会降低比例控制和语音质量。

RESEARCH · CL_126268 · Jun 30 · 16:53

新的卢森堡语SQA系统使用TTS，发布新的表达式语音语料库

研究人员开发了LuxSQA，一个用于卢森堡语（一种资源匮乏的语言）的口语问答系统。该系统利用文本到语音（TTS）技术生成合成口语问题，扩充了现有的基于文本的QA资源。通过使用多种TTS系统训练参数高效的架构，LuxSQA在卢森堡语测试集上取得了优异的性能，证明了合成数据在资源匮乏的SQA中的有效性。另外，一个名为LuxEmo的新的卢森堡语表达式语音语料库已从广播节目中创建，包含21小时的数据，涵盖四种情绪类别，并使用五种TTS系统进行了基准测试。

RESEARCH · CL_119698 · Jun 30 · 14:28

语音合成评估从自然度转向特定情境的适切度

一篇新论文探讨了文本到语音（TTS）系统评估中的挑战，从仅关注“自然度”转向考虑特定情境下的“适切度”。研究表明，TTS系统在朗读等任务上表现良好，但在表演或即兴演讲等更具表现力的领域则面临困难。研究强调，在一个领域进行优化可能会对其他领域的性能产生负面影响，而当前的评估指标可能无法充分捕捉多样化应用所需的细微差别。

RESEARCH · CL_117603 · Jun 30 · 04:00

新研究推动了用于构音障碍语音和合成数据使用的ASR · 跟踪4个来源

研究人员正在探索改进自动语音识别（ASR）系统的新方法。一项研究详细介绍了如何使用个性化数据对Whisper模型进行微调，显著降低了构音障碍语音的词错误率，在使用大量数据的情况下达到了9.7%的错误率。另一篇论文研究了使用合成语音训练ASR系统，发现通过房间冲激响应增强合成音频可以弥合与真实世界数据的差距。此外，一个名为PreferenceASR的新测试集已被开发出来，用于根据ASR系统遵循用户指定输出偏好的能力进行评估，揭示了传统基…

RESEARCH · CL_115234 · Jun 26 · 16:35

新的HPRO框架增强了基于LLM的TTS的情感表现力

研究人员开发了HPRO，一个旨在提高基于大型语言模型（LLM）的文本到语音（TTS）系统情感表现力的新框架。HPRO通过引入HD-Emo编解码器解决了当前方法的信息冲突和尺度差距等局限性。该编解码器将内容和情感偏好令牌分开，从而在不损害语义含义的情况下独立优化情感表达。该框架在不同级别（帧、词、句）上逐步对齐目标，以增强情感范围并保持可懂度。

RESEARCH · CL_109575 · Jun 24 · 03:57

新的日语TTS系统通过大规模数据扩展解决汉字多音字问题

研究人员开发了Sarashina2.2-TTS，一个专为日语设计的创新文本到语音系统，解决了汉字多音字的问题。该系统利用了约361,000小时的庞大数据集，其中包括日语和英语的均衡混合，并采用定向数据增强来提高汉字读音的准确性。Sarashina2.2-TTS引入了常用汉字读音基准（Joyo Kanji Yomi Benchmark）和一项新指标Kana-CER来评估发音的正确性。实验表明，该系统在零样本合成中实现了最先进的汉字级别读…

RESEARCH · CL_107788 · Jun 23 · 15:34

新基准评估中文新闻TTS发音准确性

研究人员推出了CN-NewsTTS Bench，这是一个旨在评估中文文本转语音（TTS）系统发音准确性的新基准。该基准专门针对新闻内容中常见的复杂书写形式，如分数、连字符姓名以及中英文字母数字混合表达，这些形式可能导致TTS系统发音错误。该基准包含开发集和测试集、自动评估目标以及来自自动语音识别（ASR）集成系统的转录文本，初步结果显示表现最佳的系统准确率达到0.879，而其他系统则显著低于0.60。

RESEARCH · CL_109476 · Jun 23 · 00:00

Wan-Streamer v0.1：统一模型实现实时视听交互

研究人员推出了 Wan-Streamer v0.1，这是一种新颖的端到端多模态基础模型，专为实时、低延迟的视听交互而设计。与传统的级联系统不同，Wan-Streamer 在单一 Transformer 架构中集成了语言、音频和视频处理，并利用块因果注意力实现增量流式传输。这种统一的方法显著降低了管道延迟和错误累积，实现了亚秒级的双向视听通信，模型端响应延迟约为 200 毫秒。

TOOL · CL_104757 · Jun 20 · 12:17

LLM 在日语音素转换方面进行基准测试

一项新研究对超过 30 个大语言模型 (LLM) 在日语字母到音素 (G2P) 转换方面的性能进行了基准测试，这是文本到语音系统的一个关键步骤。研究人员使用两种提示策略将 LLM 的性能与传统的形态分析器进行了比较：一种是涉及形态分析和基于规则转换的解析模式，另一种是 LLM 预测假名读音的直接模式。研究结果表明，LLM 的大小、版本和专门的日语训练显著影响结果，其中表现最佳的 LLM 的假名字符错误率低于 0.52%，优于最佳的传统…

TOOL · CL_100969 · Jun 19 · 17:01

Gemini API 推出流式 TTS，加速 AI 语音应用

Google 的 Gemini API 现在提供流式文本转语音 (TTS) 功能，使开发者能够创建感觉更具响应性的 AI 语音应用程序。此功能对于减少感知延迟至关重要，因为与基于文本的交互相比，用户对语音交互中的延迟的容忍度较低。通过以部分块的形式流式传输音频，开发者可以更早地开始播放，从而改善 AI 导师、销售助手和辅助功能工具等应用程序的用户体验。

RESEARCH · CL_98110 · Jun 18 · 04:00

新的希伯来语G2P系统提高了文本到语音的准确性

研究人员开发了新的希伯来语字母到音素（G2P）转换方法，这对于改进文本到语音（TTS）应用至关重要。ReNikud系统利用来自未标记希伯来语音频的音频监督来生成反映自然口语规范的音素转录，克服了传统方法依赖稀缺发音数据的局限性。Phonikud是另一个框架，通过增强基础注音器来专注于生成完全指定的国际音标（IPA）转录，旨在实现更具语音准确性的希伯来语TTS。这两种方法在希伯来语G2P基准测试中的表现均优于先前最先进的方法，并且已发布…

RESEARCH · CL_93326 · Jun 16 · 04:00

新研究探索超越MOS的高级语音质量评估方法

研究人员正在探索超越传统平均意见分（MOS）的语音质量评估新方法。一篇论文介绍了PrefSQA，它使用成对偏好预测来减少评分者变异性并提高可靠性，尤其是在高质量偏好数据集上。另一项研究调查了人类听者与MOS预测模型之间的差异，发现模型虽然能追踪声学退化，但常常忽略韵律错误并表现出说话者特征的偏差。第三篇论文提出NVMOS用于评估非语言发声的质量，并证明像Gemini这样的当前多模态大型语言模型在此任务上存在困难，且不能可靠地替代人类专家判断。

RESEARCH · CL_93405 · Jun 15 · 17:06

神经音频编解码器在低至1.6赫兹时仍能实现平滑降级

研究人员探究了神经音频编解码器在低帧率下的性能衰减机制，低帧率有利于自回归语音合成。他们的研究发现，之前观察到的6.25赫兹时的质量断崖并非由音素冲突或码本饱和引起，而是由于训练配置不当。通过纠正此配置，词错误率平滑降级至1.6赫兹，表明低帧率编解码器的效率提升比之前认为的更容易实现。

COMMENTARY · CL_91316 · Jun 15 · 06:58

人工智能语音技术：资源汇编

这篇Mastodon帖子汇编了关于人工智能语音技术的资源，涵盖文本到语音（TTS）、语音到文本（STT）、语音合成和语音克隆。该合集旨在为该领域感兴趣的人提供笔记和链接。

RESEARCH · CL_91367 · Jun 15 · 04:00

新的TTS研究探索离散流匹配以提高效率

两篇新研究论文探讨了零样本文本到语音（TTS）技术的进展，重点关注离散流匹配技术。第一篇论文介绍了DiFlow-TTS，一个使用离散流匹配方法来平衡生成质量和推理效率的框架，解决了自回归和连续空间基于流的模型存在的局限性。第二篇论文《Mask, Sample, Revise》提出了一种用于离散流匹配TTS的推理时堆栈，在不显式使用持续时间预测器的情况下，增强了从神经编解码器令牌生成语音的控制力和鲁棒性。