English(EN) Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning

新基准测试大型语言模型在对抗性对话中的动物福利立场

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员开发了MANTA，一个旨在评估大型语言模型在多轮对抗性对话中维持其动物福利伦理立场的程度的新基准。该基准包含1088个五轮对话，用于测试价值观稳定性和道德敏感性。在对包括Claude Opus 4.7和GPT-5.5在内的七个前沿模型进行测试时，MANTA显示，在持续压力下，一些模型的性能排名发生显著变化，表明其对齐性可能下降。 AI

影响该基准可以揭示大型语言模型对齐性的漏洞，促使开发人员提高其在敏感伦理领域对抗压力的鲁棒性。

排序理由该集群包含一篇介绍用于评估大型语言模型行为的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Isabella Luong, Joyee Chen, Arturs Kanepajs, Jasmine Brazilek, Sankalpa Ghose, David Williams-King, Linh Le, Allen Lu · 2026-06-04 04:00

Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning

arXiv:2605.16301v2 Announce Type: replace-cross Abstract: Evaluating animal welfare reasoning in LLMs remains an open challenge despite rapid deployment in consumer and professional contexts where welfare considerations appear implicitly in everyday queries. Existing benchmarks s…

报道来源 [1]

Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning

相关实体

相关话题