实体 HalBench

HalBench

PulseAugur coverage of HalBench — every cluster mentioning HalBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_93023 · Jun 16 · 00:19

HalBench 基准测试显示 Qwen-3.6 在抵抗虚假信息方面领先开源 LLM

一个新的名为 HalBench 的基准测试已发布，用于评估大型语言模型 (LLM) 在识别和抵制错误前提方面的能力，而不是谄媚地同意。在最新版本中，对 29 个开源模型和四个专有模型进行了测试。Qwen-3.6，一个开源模型，表现出色，在所有测试的开源模型中实现了最高的抵制百分比，并且其表现优于更大的模型，甚至优于 GPT-5.4 和 Gemini 3.1 Pro 等一些专有模型。