PulseAugur
实时 12:45:30
English(EN) LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings

新基准 LongWebBench 评估长篇网页生成

研究人员推出了 LongWebBench,这是一个旨在评估长网页生成能力的新基准,用于视觉语言模型(VLMs)。该基准评估了结构连贯性和功能交互性,使用了真实的超长网页和面向目标的交互任务。对当前 VLMs 的实验表明,虽然视觉保真度可以保持,但随着网页长度的增加,结构保真度会下降,功能执行会失败,这凸显了超越视觉相似性进行更鲁棒评估的必要性。 AI

影响 强调了当前 VLM 网页生成能力的局限性,推动了更侧重功能和结构的评估指标。

排序理由 介绍用于评估 AI 模型的新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yi Zhao, Zhen Yang, Mengpan Chen, Mingde Xu, Shanghui Gong, Xijun Liu, Jibing Gong, Jie Tang ·

    LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings

    arXiv:2606.17727v1 Announce Type: new Abstract: Recent vision-language models (VLMs) have shown promising progress in generating webpages from visual inputs, yet existing evaluations mainly focus on short, single-screen, and largely static webpages. We introduce LongWebBench, a b…