实体 WUBRG-Bench

WUBRG-Bench

PulseAugur coverage of WUBRG-Bench — every cluster mentioning WUBRG-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_114168 · Jun 28 · 03:11

新的WUBRG-Bench测试LLM对复杂《万智牌》规则的理解能力

一个名为WUBRG-Bench的新基准测试已被开发出来，用于测试大型语言模型在复杂规则系统上的推理能力，特别是使用《万智牌》游戏中的问题。创建者发现，专注于推理的模型通常表现更好，尽管有一个模型Qwen-3.7-max表现出惊人的高准确率，这引发了其可能在测试集上进行训练的猜测。该基准旨在提供一种明确的方式来评估LLM在规则解释和应用方面的能力，这是以前类似基准未曾涉及的任务。