研究人员开发了评估语言模型测谎仪的新方法,解决了现有测试平台往往无法确保模型真正相信其陈述的反面这一挑战。该研究引入了 13 种具有已验证隐藏信念的推理模型生物,以及一个名为 Varied Deception 的提示式撒谎测试平台。在 31 个开源模型上,测谎仪在提示式撒谎方面与模型能力呈比例扩展,但基于激活和对数概率的方法在处理训练过的模型生物方面遇到了困难。思维链法官表现最佳,尽管部分原因在于验证方法。 AI
影响 用于 AI 测谎的新评估方法和数据集可以改进模型审计和安全研究。
排序理由 详细介绍 AI 测谎新方法和评估的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →