English(EN) Hidden Consensus:Preference-Validity Compression in Human Feedback

人工智能对齐方法可能无法捕捉多样化的人类偏好

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 08:32

研究人员发现，在处理用于人工智能对齐的人类反馈时存在一个重大问题，称为偏好-有效性压缩。当源于有效的文化或语言差异的多样化人类判断被简化为单一标量奖励时，就会发生这种情况。对来自马来西亚的反馈的分析显示，绝大多数提示都有多个可接受的响应，但标准的聚合方法会丢弃除一个之外的所有响应。这表明当前的方法可能无法准确衡量多样化社会中的对齐度。 AI

影响当前的人工智能对齐方法可能无法充分捕捉多样化的人类价值观，可能导致人工智能系统在多元化社会中出现不对齐。

排序理由该集群包含一篇学术论文，详细介绍了与人工智能对齐相关的新概念和分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

Malaysia

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Chee Seng Chan · 2026-06-09 08:32

隐藏共识：人类反馈中的偏好-有效性压缩

Standard RLHF pipelines often reduce heterogeneous human judgments into a single scalar reward target. We argue that this reduction can mis-measure alignment in structurally plural societies, where disagreement may reflect culturally, historically, linguistically, regionally, or …

报道来源 [1]

隐藏共识：人类反馈中的偏好-有效性压缩

相关实体

相关话题