新方法读取和引导语言模型内部优先级

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了一种名为Constitutional Value Potentials (CVP)的新方法，用于读取和引导语言模型的内部优先级。CVP从模型的隐藏状态中学习每个值的标量势，表明其保留该值的内部压力。这使得能够识别优先级边际，这对于理解模型如何处理价值冲突至关重要。该系统能够高精度地预测冲突违规，并且可以跨不同模型规模进行泛化，这表明这些优先级存在于模型的激活空间中，而不仅仅是通过输出行为来访问。 AI

影响能够更深入地理解和控制LLM的价值对齐，可能提高安全性和可靠性。

排序理由该集群包含一篇研究论文，详细介绍了分析语言模型行为的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Tong Che, Rui Wu · 2026-06-16 04:00

Constitutional Value Potentials: reading and steering internal priority margins in language models

arXiv:2606.15420v1 Announce Type: cross Abstract: A constitution tells a language model what to value, but little tells us whether it does. Adherence is judged from outputs, and output evidence is most fragile on value conflicts, where what matters is not which value a model ment…

报道来源 [1]

Constitutional Value Potentials: reading and steering internal priority margins in language models

相关实体

相关话题