一篇新研究论文探讨了Transformer语言模型(特别是Olmo2和Pythia系列)在情境建模和心理化能力方面的发展。研究发现,在错误信念任务(FBT)上的准确表现取决于模型大小和训练量,并且在预训练过程的后期出现。虽然训练后干预可以提高FBT的准确性,但模型仍然表现出脆弱性,易受非事实动词和其他代理的知识状态的影响。研究表明,更大、训练更充分的模型会发展出部分连贯的情境模型,但其心理化能力仍然容易受到特定语言线索的影响。 AI
影响 为理解大型语言模型(LLM)推理的发展阶段和局限性提供了见解,为未来模型的开发和评估提供信息。
排序理由 学术论文,详细介绍了关于大型语言模型(LLM)能力的研究结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →