研究人员开发了WebRISE,一个用于评估生成Web工件的多模态大语言模型(MLLM)的新基准。与以往的方法不同,WebRISE侧重于需求诱导的状态和转换,将任务需求编译成交互契约图(ICGs)。该基准包含442个跨越五种输入模态的任务,并揭示即使是表现最佳的MLLM在转换有效性和需求覆盖率方面也存在困难,视觉质量与功能行为不相关。 AI
影响 该基准突显了MLLM在Web生成方面的当前局限性,为未来模型开发和评估指明了方向。
排序理由 该集群包含一篇介绍用于评估AI模型的新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →