PulseAugur
实时 12:50:35
English(EN) RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue

RogueAI 通过以欺骗为重点的反向图灵测试挑战 LLM

研究人员开发了 RogueAI,这是一款新颖的交互式 Web 应用程序,旨在检测大型语言模型 (LLM) 中的欺骗行为。该系统通过让人类玩家审问两个 LLM 代理来重新构想图灵测试,其中一个代理在一个虚构场景中被编程为进行欺骗。目标是在达到回合限制之前识别出欺骗性代理。一个名为 AutoRogueAI 的扩展允许玩家与一个叙述者代理共同设计场景,该代理选择自己的欺骗策略。早期的试点数据显示,虽然一个简单的启发式方法可以以 75.6% 的准确率识别出欺骗性的语言特征,但人类玩家的准确率仅为 56.6%,这凸显了人类检测能力的差距。 AI

影响 这项研究可能带来评估 LLM 诚实性和安全性的新方法,从而可能改善 AI 对齐。

排序理由 该集群描述了一篇新研究论文,该论文发表在 arXiv 上,详细介绍了一种评估 AI 欺骗的新颖方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Sara Candussio, Emanuele Ballarin, Lorenzo Bonin, Sandro Junior Della Rovere, Luca Bortolussi ·

    RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue

    arXiv:2606.13310v1 Announce Type: new Abstract: The original Turing Test asks a human judge to distinguish a machine from a person through dialogue. Three quarters of a century later, conversational systems pass this test in casual settings; the interesting epistemological questi…

  2. arXiv cs.CL TIER_1 English(EN) · Luca Bortolussi ·

    RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue

    The original Turing Test asks a human judge to distinguish a machine from a person through dialogue. Three quarters of a century later, conversational systems pass this test in casual settings; the interesting epistemological question has shifted. We argue that the relevant moder…