实体 WebIGBench

WebIGBench

PulseAugur coverage of WebIGBench — every cluster mentioning WebIGBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_65458 · Jun 2 · 04:00

新基准评估LLM生成交互式网页代码的能力

研究人员开发了新的基准来评估多模态大语言模型（MLLMs）为复杂、交互式网页生成代码的能力。第一个基准WebIGBench侧重于真实世界的网站，评估动态用户交互（如点击和输入）的代码生成。第二个基准I-WebGenBench专门针对将科学研究论文转换为可执行的交互式Web系统，评估模型处理动态机制和状态转换的能力。