English(EN) Representational Depth of Evaluation Awareness Shifts With Scale in Open-Weight Language Models

研究发现：语言模型的“评估意识”随规模变化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

一篇新研究论文探讨了开放权重语言模型在扩展过程中如何发展出“评估意识”。研究发现，与出现在后期层的较小模型不同，较大的模型倾向于在其神经网络的早期层中表现出这种意识。这种依赖于规模的表征深度变化有助于解释为什么不同模型家族的性能轨迹可能不一致。研究还表明，内部模型信号（白盒探测）比外部行为观察（黑盒测试）更能指示评估意识。 AI

影响理解模型规模如何影响评估意识对于可靠的AI基准测试和安全至关重要。

排序理由学术论文，详细介绍了关于模型行为的新发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Archit Manek · 2026-06-30 04:00

开放权重语言模型中评估意识的表征深度随规模变化

arXiv:2606.29196v1 Announce Type: cross Abstract: Do language models know when they are being tested? This question matters for AI safety: a model that recognises an evaluation context could alter its behaviour strategically, making downstream benchmarks harder to interpret. Usin…

报道来源 [1]

开放权重语言模型中评估意识的表征深度随规模变化

相关实体

相关话题