研究人员开发了MANTA,一个旨在评估大型语言模型在多轮对抗性对话中维持其动物福利伦理立场的程度的新基准。该基准包含1088个五轮对话,用于测试价值观稳定性和道德敏感性。在对包括Claude Opus 4.7和GPT-5.5在内的七个前沿模型进行测试时,MANTA显示,在持续压力下,一些模型的性能排名发生显著变化,表明其对齐性可能下降。 AI
影响 该基准可以揭示大型语言模型对齐性的漏洞,促使开发人员提高其在敏感伦理领域对抗压力的鲁棒性。
排序理由 该集群包含一篇介绍用于评估大型语言模型行为的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Claude Opus 4.7
- DeepSeek V4
- Gemini 3.1 Flash Lite
- GPT-5.5
- Grok 4.3
- Llama 3.3 70B
- MANTA
- Mistral Small
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →