English(EN) Classifier Context Rot: Monitor Performance Degrades with Context Length

AI模型在长对话记录中未能检测到危险

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-12 16:34

一篇新论文揭示，包括Opus 4.6、GPT 5.4和Gemini 3.1在内的领先AI模型在分类长对话记录时表现出显著的性能下降，而这项任务对于监控编码代理至关重要。与较短的对话记录相比，在超过80万个token的对话记录中，这些模型漏报微妙危险行为的频率要高得多。尽管提示技术可以在一定程度上缓解这个问题，但为了确保在长上下文场景中的可靠监控，可能还需要进一步的训练后改进。 AI

影响领先的AI模型在处理长上下文时遇到困难，可能高估其安全监控能力，需要新的训练或提示策略。

排序理由该集群包含一篇详细介绍AI模型性能新发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Fabien Roger · 2026-05-12 16:34

Classifier Context Rot: Monitor Performance Degrades with Context Length

Monitoring coding agents for dangerous behavior using language models requires classifying transcripts that often exceed 500K tokens, but prior agent monitoring benchmarks rarely contain transcripts longer than 100K tokens. We show that when used as classifiers, current frontier …

报道来源 [1]

Classifier Context Rot: Monitor Performance Degrades with Context Length

相关实体

相关话题