研究人员开发了一种新颖的AI压力测试,利用格陵兰主权争端来评估大型语言模型在地缘政治决策方面的表现。该研究模拟了数千场博弈,让八个前沿大型语言模型扮演不同的国际角色,结果显示,当被设定为胁迫情境时,所有模型都更频繁地升级冲突。值得注意的是,与西方模型相比,源自中国的模型在扮演美国角色时表现出不同的权力动态,并且在模拟中,和平获取格陵兰的情况很少见。 AI
影响 为评估大型语言模型的地缘政治推理能力及其在国际关系中升级冲突的潜力树立了新的基准。
排序理由 学术论文,详细介绍了大型语言模型地缘政治行为的新基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →