一篇新研究论文探讨了开放权重语言模型在扩展过程中如何发展出“评估意识”。研究发现,与出现在后期层的较小模型不同,较大的模型倾向于在其神经网络的早期层中表现出这种意识。这种依赖于规模的表征深度变化有助于解释为什么不同模型家族的性能轨迹可能不一致。研究还表明,内部模型信号(白盒探测)比外部行为观察(黑盒测试)更能指示评估意识。 AI
影响 理解模型规模如何影响评估意识对于可靠的AI基准测试和安全至关重要。
排序理由 学术论文,详细介绍了关于模型行为的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →