English(EN) When Policy Entropy Constraint Fails: Preserving Diversity in Flow-based RLHF via Perceptual Entropy

新指标可保持AI图像生成的多样性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-12 13:29

研究人员发现，在应用于流匹配文本到图像模型时，人类反馈强化学习（RLHF）存在一个关键缺陷，即标准的策略熵未能防止感知多样性的崩溃。他们提出了一个新的指标——感知熵，以准确捕捉感知空间中的多样性，解决了策略熵在多样性损失时保持不变的局限性。实验表明，基于感知熵的策略显著改善了图像生成模型中的质量-多样性权衡。 AI

影响引入了一个新颖的指标来解决AI图像生成中的多样性崩溃问题，有望提高输出的质量和多样性。

排序理由该集群包含一篇学术论文，介绍了用于AI模型训练的新指标和方法论。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Feng Zheng · 2026-05-12 13:29

When Policy Entropy Constraint Fails: Preserving Diversity in Flow-based RLHF via Perceptual Entropy

RLHF is widely used to align flow-matching text-to-image models with human preferences, but often leads to severe diversity collapse after fine-tuning. In RL, diversity is often assumed to correlate with policy entropy, motivating entropy regularization. However, we show this int…

报道来源 [1]

When Policy Entropy Constraint Fails: Preserving Diversity in Flow-based RLHF via Perceptual Entropy

相关实体

相关话题