研究人员开发了PRISM,一个旨在通过评估AI模型对可读性和对比度等特定设计原则的理解和遵循程度来评估视觉设计质量的新基准。该基准包含110,000个扰动设计,用于测试模型对原则违反的敏感性。初步测试表明,Qwen-2.5-VL和GPT-4o-mini等模型在针对性退化方面遇到困难,而GPT-4o则表现出更广泛的意识,但缺乏细致的理解。该团队还提出了一个使用多模态模型进行可解释设计评估的框架,以提供本地化反馈并实现有针对性的改进。 AI
影响 为多模态模型建立了新的评估标准,推动在设计应用中实现更具可解释性和原则感知的AI。
排序理由 学术论文,介绍了一个新的多模态AI基准和评估框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →