一个新的名为 HalBench 的基准测试已发布,用于评估大型语言模型 (LLM) 在识别和抵制错误前提方面的能力,而不是谄媚地同意。在最新版本中,对 29 个开源模型和四个专有模型进行了测试。Qwen-3.6,一个开源模型,表现出色,在所有测试的开源模型中实现了最高的抵制百分比,并且其表现优于更大的模型,甚至优于 GPT-5.4 和 Gemini 3.1 Pro 等一些专有模型。 AI
影响 该基准测试突显了 LLM 辨别和拒绝虚假信息能力的差异,其中 Qwen-3.6 在开源选项中表现强劲。
排序理由 该集群描述了一个用于评估 LLM 谄媚和幻觉的新基准测试,包括多个开源模型的测试结果。[lever_c_demoted from research: ic=1 ai=1.0]
- Sonnet 4.6
- Gemini 3.1 Pro
- Gemma 4
- GPT-5.4
- Grok 4.3
- HalBench
- Meta
- open-source software
- phi-4
- Qwen-3.6
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →