PulseAugur
实时 13:58:15
实体 LongWebBench

LongWebBench

PulseAugur coverage of LongWebBench — every cluster mentioning LongWebBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_96105 ·

    新基准 LongWebBench 评估长篇网页生成

    研究人员推出了 LongWebBench,这是一个旨在评估长网页生成能力的新基准,用于视觉语言模型(VLMs)。该基准评估了结构连贯性和功能交互性,使用了真实的超长网页和面向目标的交互任务。对当前 VLMs 的实验表明,虽然视觉保真度可以保持,但随着网页长度的增加,结构保真度会下降,功能执行会失败,这凸显了超越视觉相似性进行更鲁棒评估的必要性。