English(EN) RevengeBench: Reverse Engineering Code-Space Policies from Behavioral Experiments

新基准测试可从行为中解码 AI 代理决策程序

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 17:59

研究人员开发了 RevengeBench，这是一个新的基准测试，旨在根据 AI 代理在游戏环境中观察到的行为来逆向工程其决策程序。该基准测试使用了来自 CodeClash 锦标赛的 75 个 LLM 生成的策略，允许学习者通过创建自定义对手策略来设计受控实验，从而引发目标 AI 的信息性行为。这种方法旨在提高策略的可解释性并实现对手建模，重建的策略显示出可衡量的竞争优势，特别是对于较弱的模型。 AI

影响能够更好地理解 AI 决策制定并提高对手建模能力。

排序理由该条目描述了 arXiv 上发布的一个新基准测试和方法，用于从行为实验中逆向工程 AI 策略。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Matthias Bethge · 2026-06-24 17:59

RevengeBench: Reverse Engineering Code-Space Policies from Behavioral Experiments

For most of scientific history, researchers studying behavior could only infer hidden mechanisms from outward actions: an inverse problem that becomes more tractable when observation is augmented by targeted intervention. We pose a computational analogue: given only behavioral tr…

报道来源 [1]

RevengeBench: Reverse Engineering Code-Space Policies from Behavioral Experiments

相关实体

相关话题