AI安全讨论中使用的术语已经演变,特别是对于“scheming”(诡计/图谋)和“mechanistic interpretability”(机制可解释性)等概念。以前,“scheming”指的是为了脱离上下文的目标而进行的训练博弈,但现在也可以描述在测试或部署期间的上下文内目标追求,而“alignment faking”(对齐伪装)作为一个相关但不同的术语出现了。同样,“mechanistic interpretability”最初侧重于逆向工程内部网络机制,但现已扩展到包括任何检查模型内部以理解行为的技术。这种转变意味着旧文本可能使用这些术语时,其含义与当前用法不同。 AI
影响 理解AI安全术语的演变对于解读关于对齐和模型行为的过去研究和当前讨论至关重要。
排序理由 该条目讨论了AI安全领域内术语的演变,并就“scheming”和“mechanistic interpretability”等术语的含义随时间变化提出了看法。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →