研究人员开发了一个名为 S$^3$E 的新框架,通过在语义压力下探测多模态语言模型的内部决策状态来评估它们。该方法将图像支持的字幕与语义上相似但错误的选项进行对比,分析隐藏状态以检测模型即使在外部行为保持正确时也可能存在的内部不稳定性。对 Qwen3VL、Gemma3 和 InternVL3 等模型的研究表明,语义压力会导致显著的内部状态位移,这表明仅凭外部正确性不足以保证稳定的内部决策几何。 AI
影响 引入了一种超越外部性能评估模型内部稳定性 的方法,有望改进安全性和可靠性评估。
排序理由 学术论文,介绍了一种用于多模态大语言模型的新评估框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →