PulseAugur
实时 07:53:39
English(EN) HPRO: Hierarchical Progressive Reward Optimization via Preference Extraction for Emotional Text-to-Speech

新的HPRO框架增强了基于LLM的TTS的情感表现力

研究人员开发了HPRO,一个旨在提高基于大型语言模型(LLM)的文本到语音(TTS)系统情感表现力的新框架。HPRO通过引入HD-Emo编解码器解决了当前方法的信息冲突和尺度差距等局限性。该编解码器将内容和情感偏好令牌分开,从而在不损害语义含义的情况下独立优化情感表达。该框架在不同级别(帧、词、句)上逐步对齐目标,以增强情感范围并保持可懂度。 AI

影响 这项研究可能带来更具情感细微差别和更自然的人工智能生成语音,从而改善虚拟助手和内容创作等应用中的用户体验。

排序理由 该集群包含一篇详细介绍文本到语音合成新方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的HPRO框架增强了基于LLM的TTS的情感表现力

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Sihang Nie, Xiaofen Xing, Rui Xing, Haoming Li, Ruitong Xiao, Jingyuan Xing, Baiji Liu, Xiangmin Xu ·

    HPRO: Hierarchical Progressive Reward Optimization via Preference Extraction for Emotional Text-to-Speech

    arXiv:2606.28249v1 Announce Type: cross Abstract: Recently, Large Language Model (LLM)-based Text-to-Speech (TTS) models have achieved remarkable naturalness. However, the standard Supervised Fine-Tuning paradigm often converges to statistically averaged prosody, limiting emotion…

  2. arXiv cs.CL TIER_1 English(EN) · Xiangmin Xu ·

    HPRO:通过偏好提取实现情感文本到语音的层级渐进奖励优化

    Recently, Large Language Model (LLM)-based Text-to-Speech (TTS) models have achieved remarkable naturalness. However, the standard Supervised Fine-Tuning paradigm often converges to statistically averaged prosody, limiting emotional expressiveness. While preference-driven optimiz…