一篇新的arXiv论文研究了大型语言模型(LLM)中“遗忘”(plasticity loss)问题的挑战,即模型在用旧数据训练后难以学习新信息。研究人员发现,即使是现代的基于Transformer的大型语言模型,包括GPT系列模型,也存在这种“遗忘”问题,并且这种效应会随着模型规模的增加而可预测地扩展。虽然更大的模型可以延迟“遗忘”问题的出现,但研究表明,仅仅增加参数数量不足以完全阻止它,这表明大型语言模型在持续学习方面存在根本性限制。 AI
影响 表明仅靠规模可能无法解决大型语言模型中的持续学习问题,可能需要新的架构方法。
排序理由 该集群包含一篇在arXiv上发表的学术论文,讨论了关于大型语言模型局限性的研究结果。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →