English(EN) When Correct Decisions Hide Internal Stress: Decision-State Probing in Multimodal Language Models

新框架探测多模态大语言模型的内部决策压力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-07 01:11

研究人员开发了一个名为 S$^3$E 的新框架，通过在语义压力下探测多模态语言模型的内部决策状态来评估它们。该方法将图像支持的字幕与语义上相似但错误的选项进行对比，分析隐藏状态以检测模型即使在外部行为保持正确时也可能存在的内部不稳定性。对 Qwen3VL、Gemma3 和 InternVL3 等模型的研究表明，语义压力会导致显著的内部状态位移，这表明仅凭外部正确性不足以保证稳定的内部决策几何。 AI

影响引入了一种超越外部性能评估模型内部稳定性的方法，有望改进安全性和可靠性评估。

排序理由学术论文，介绍了一种用于多模态大语言模型的新评估框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Eduard Hovy · 2026-06-07 01:11

正确决策隐藏内部压力：多模态语言模型中的决策状态探测

Multimodal language models are typically evaluated through external behavior: selecting the correct image--text match, rejecting unsupported captions, or answering visual queries correctly. However, correct behavior alone does not show that the model's internal decision state rem…

报道来源 [1]

正确决策隐藏内部压力：多模态语言模型中的决策状态探测

相关实体

相关话题