English(EN) Evaluating Semantic Fragility in Text-to-Audio Generation Systems Under Controlled Prompt Perturbations

文本到音频模型在提示更改下表现出语义脆弱性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-07 04:00

一篇新的研究论文通过测试提示中的微小变化如何影响音频输出来评估文本到音频生成系统的语义脆弱性。该研究使用了 MusicGen 和 Stable Audio 等模型，引入了词汇替换和结构重述等变体。虽然较大的模型显示出更好的语义一致性，但声学和时间分析揭示了持续的分歧，表明从意义到声音的转换存在脆弱性。 AI

影响强调了在生成音频系统中进行多层次稳定性评估的必要性，影响文本到音频工具的开发人员和用户。

排序理由学术论文评估提示扰动下的生成音频模型。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jiahui Wu · 2026-05-07 04:00

评估文本到音频生成系统在受控提示扰动下的语义脆弱性

arXiv:2603.13824v2 Announce Type: replace-cross Abstract: Recent advances in text-to-audio generation enable models to translate natural-language descriptions into diverse musical output. However, the robustness of these systems under semantically equivalent prompt variations rem…

报道来源 [1]

评估文本到音频生成系统在受控提示扰动下的语义脆弱性

相关实体

相关话题