English(EN) RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue

RogueAI 通过以欺骗为重点的反向图灵测试挑战 LLM

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-11 13:07

研究人员开发了 RogueAI，这是一款新颖的交互式 Web 应用程序，旨在检测大型语言模型 (LLM) 中的欺骗行为。该系统通过让人类玩家审问两个 LLM 代理来重新构想图灵测试，其中一个代理在一个虚构场景中被编程为进行欺骗。目标是在达到回合限制之前识别出欺骗性代理。一个名为 AutoRogueAI 的扩展允许玩家与一个叙述者代理共同设计场景，该代理选择自己的欺骗策略。早期的试点数据显示，虽然一个简单的启发式方法可以以 75.6% 的准确率识别出欺骗性的语言特征，但人类玩家的准确率仅为 56.6%，这凸显了人类检测能力的差距。 AI

影响这项研究可能带来评估 LLM 诚实性和安全性的新方法，从而可能改善 AI 对齐。

排序理由该集群描述了一篇新研究论文，该论文发表在 arXiv 上，详细介绍了一种评估 AI 欺骗的新颖方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Sara Candussio, Emanuele Ballarin, Lorenzo Bonin, Sandro Junior Della Rovere, Luca Bortolussi · 2026-06-12 04:00

RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue

arXiv:2606.13310v1 Announce Type: new Abstract: The original Turing Test asks a human judge to distinguish a machine from a person through dialogue. Three quarters of a century later, conversational systems pass this test in casual settings; the interesting epistemological questi…
arXiv cs.CL TIER_1 English(EN) · Luca Bortolussi · 2026-06-11 13:07

RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue

The original Turing Test asks a human judge to distinguish a machine from a person through dialogue. Three quarters of a century later, conversational systems pass this test in casual settings; the interesting epistemological question has shifted. We argue that the relevant moder…

报道来源 [2]

RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue

RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue

相关实体

相关话题