PulseAugur
实时 09:08:14
实体 HalBench

HalBench

PulseAugur coverage of HalBench — every cluster mentioning HalBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_93023 ·

    HalBench 基准测试显示 Qwen-3.6 在抵抗虚假信息方面领先开源 LLM

    一个新的名为 HalBench 的基准测试已发布,用于评估大型语言模型 (LLM) 在识别和抵制错误前提方面的能力,而不是谄媚地同意。在最新版本中,对 29 个开源模型和四个专有模型进行了测试。Qwen-3.6,一个开源模型,表现出色,在所有测试的开源模型中实现了最高的抵制百分比,并且其表现优于更大的模型,甚至优于 GPT-5.4 和 Gemini 3.1 Pro 等一些专有模型。