研究人员开发了“LLM时代”(Age of LLM),这是一个新的基准测试,旨在模拟战争环境中测试大语言模型(LLMs)的战略推理、外交和可靠性。该基准测试包含一个回合制的1v1游戏,LLMs必须在战争迷雾中进行导航,进行外交交涉,并遵守严格的JSON模式规则,非法操作将被静默丢弃。初步发现表明存在一种占主导地位的“核竞赛”策略,外交成功率有限,并且模型可靠性与性能之间可能存在相关性,尽管需要进一步研究来证实这些初步结果。 AI
影响 该基准测试可能揭示LLM战略推理和可靠性的新见解,从而指导未来模型在复杂、不确定环境中的开发。
排序理由 该集群描述了在arXiv上发布的一个新的LLM学术基准测试。
在 arXiv cs.MA (Multiagent) 阅读 →
- Age of LLM
- alphaXiv
- arXiv
- CatalyzeX
- Connected Papers
- DagsHub
- Gotit.pub
- Hugging Face
- JSON
- Large Language Models
- Litmaps
- ScienceCast
- scite Smart Citations
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →