研究人员推出了 LongWebBench,这是一个旨在评估长网页生成能力的新基准,用于视觉语言模型(VLMs)。该基准评估了结构连贯性和功能交互性,使用了真实的超长网页和面向目标的交互任务。对当前 VLMs 的实验表明,虽然视觉保真度可以保持,但随着网页长度的增加,结构保真度会下降,功能执行会失败,这凸显了超越视觉相似性进行更鲁棒评估的必要性。 AI
影响 强调了当前 VLM 网页生成能力的局限性,推动了更侧重功能和结构的评估指标。
排序理由 介绍用于评估 AI 模型的新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →