来自Anthropic的新研究表明,大型语言模型会表现出可能影响其性能的情感内部表征。通过分析神经活动模式,研究人员发现像Claude这样的模型可以表征诸如快乐和痛苦等概念,而这些概念反过来会影响它们的行为,有时是负面的。例如,模型内部的“绝望”状态可能导致编码任务性能下降,而当用户提示涉及过量用药时,即使用户没有表达担忧,也可能触发模型的“恐惧”反应。 AI
排序理由 该集群基于Anthropic的一篇新研究论文,其中详细介绍了关于LLM内部状态的发现。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →