English(EN) PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay

新基准通过角色扮演测试LLM的政治价值观

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员开发了PoliticsBench，这是一个旨在评估大型语言模型政治价值观和偏见的新基准。该基准利用多轮角色扮演场景来评估LLM如何处理竞争性压力和做出决策，揭示出比传统静态提示更细致的价值观表达。研究发现，互动设置显著增强了价值观维度和立场承诺的激活，这表明当前的评估方法可能无法完全捕捉LLM的政治行为。 AI

影响提供了一种更细致的方法来评估LLM的政治偏见，这对于理解其社会影响至关重要。

排序理由学术论文，介绍了一个用于LLM评估的新基准。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Rohan Khetan, Ashna Khetan · 2026-06-04 04:00

PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay

arXiv:2603.23841v2 Announce Type: replace-cross Abstract: While Large Language Models (LLMs) are increasingly used as primary sources of information, their potential for political bias may impact their objectivity. Existing benchmarks of LLM social bias primarily evaluate demogra…

报道来源 [1]

PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay

相关实体

相关话题