研究人员开发了一种名为Constitutional Value Potentials (CVP)的新方法,用于读取和引导语言模型的内部优先级。CVP从模型的隐藏状态中学习每个值的标量势,表明其保留该值的内部压力。这使得能够识别优先级边际,这对于理解模型如何处理价值冲突至关重要。该系统能够高精度地预测冲突违规,并且可以跨不同模型规模进行泛化,这表明这些优先级存在于模型的激活空间中,而不仅仅是通过输出行为来访问。 AI
影响 能够更深入地理解和控制LLM的价值对齐,可能提高安全性和可靠性。
排序理由 该集群包含一篇研究论文,详细介绍了分析语言模型行为的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- arXivLabs
- CatalyzeX Code Finder for Papers
- Constitutional Value Potentials
- CORE Recommender
- DagsHub
- Gotit.pub
- Hugging Face
- IArxiv Recommender
- Influence Flower
- Qwen2.5
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →