PulseAugur
实时 08:49:04
实体 WUBRG-Bench

WUBRG-Bench

PulseAugur coverage of WUBRG-Bench — every cluster mentioning WUBRG-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_114168 ·

    新的WUBRG-Bench测试LLM对复杂《万智牌》规则的理解能力

    一个名为WUBRG-Bench的新基准测试已被开发出来,用于测试大型语言模型在复杂规则系统上的推理能力,特别是使用《万智牌》游戏中的问题。创建者发现,专注于推理的模型通常表现更好,尽管有一个模型Qwen-3.7-max表现出惊人的高准确率,这引发了其可能在测试集上进行训练的猜测。该基准旨在提供一种明确的方式来评估LLM在规则解释和应用方面的能力,这是以前类似基准未曾涉及的任务。