English(EN) Beyond Scalar Rewards by Internalizing Reasoning into Score Distributions

新的 Z-Reward 框架改进了文本到图像生成

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员开发了一个名为 Z-Reward 的新框架，用于改进文本到图像生成模型。该系统采用师生方法，其中大型视觉语言模型 (VLM) 作为教师，根据推理推断分数分布。然后训练一个较小的学生 VLM 来模仿这些分布，从而在推理过程中无需显式推理即可实现高效的奖励部署。与现有方法相比，Z-Reward 框架在人类偏好准确性方面表现出显著的改进，并增强了文本到图像的优化。 AI

影响引入了一种新颖的奖励建模技术，可以提高文本到图像生成模型的质量和可控性。

排序理由学术论文，详细介绍了生成式 AI 中奖励建模的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xin Jin, Huanqia Cai, Zhen Li, Zechao Zhan, Dengyang Jiang, Aiming Hao, Yuming Jiang, Chunle Guo, Peng Gao, Ming-Ming Cheng, Steven C. H. Hoi · 2026-06-09 04:00

超越标量奖励：将推理内化到分数分布中

arXiv:2606.09076v1 Announce Type: new Abstract: Reward models are central to text-to-image post-training, but visual preference is subjective and better represented as a distribution over rubric scores than as a deterministic scalar. Existing scalar, score-token, and pairwise rew…

报道来源 [1]

超越标量奖励：将推理内化到分数分布中

相关话题