研究人员正在开发新的框架来评估视觉-语言模型(VLM)对多模态说服和视觉影响的敏感性。一项研究引入了MMPersuade,使用图像和心理策略来测试代理之间的说服,发现多模态输入比单独的文本更有效,并且敏感性因领域和模型架构而异。另一篇论文提出了一种系统地扰动图像并分析VLM视觉偏好如何变化的方法,旨在揭示漏洞并改进审计。第三项研究侧重于自动驾驶中的视觉-语言-动作(VLA)模型,使用扰动框架来理解视觉信息如何支撑驾驶行为并开发更安全的系统。 AI
影响 这些研究突显了多模态AI系统中的关键漏洞,为在各种应用中开发更强大、更值得信赖的AI代理提供了信息。
排序理由 多篇arXiv论文介绍了用于评估VLM和VLA模型行为的新框架和分析。
- arXiv
- Vision-Language-Action (VLA) models
- MMPersuade
- Vision-Language-Action models
- Vision-Language Models
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →