PulseAugur
实时 12:21:05
English(EN) Can Scale Save Us From Plasticity Loss in Large Language Models?

研究发现,尽管规模不断扩大,大型语言模型(LLM)仍面临持续的“遗忘”问题

一篇新的arXiv论文研究了大型语言模型(LLM)中“遗忘”(plasticity loss)问题的挑战,即模型在用旧数据训练后难以学习新信息。研究人员发现,即使是现代的基于Transformer的大型语言模型,包括GPT系列模型,也存在这种“遗忘”问题,并且这种效应会随着模型规模的增加而可预测地扩展。虽然更大的模型可以延迟“遗忘”问题的出现,但研究表明,仅仅增加参数数量不足以完全阻止它,这表明大型语言模型在持续学习方面存在根本性限制。 AI

影响 表明仅靠规模可能无法解决大型语言模型中的持续学习问题,可能需要新的架构方法。

排序理由 该集群包含一篇在arXiv上发表的学术论文,讨论了关于大型语言模型局限性的研究结果。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

研究发现,尽管规模不断扩大,大型语言模型(LLM)仍面临持续的“遗忘”问题

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · J. Fernando Hernandez-Garcia, Tom\'as Figliolia, Beren Millidge ·

    Can Scale Save Us From Plasticity Loss in Large Language Models?

    arXiv:2606.24752v1 Announce Type: new Abstract: The loss of plasticity - the ability of a network to learn new information after having already learned older information - is a fundamental challenge in creating artificial neural networks capable of continual learning. Although th…

  2. arXiv cs.AI TIER_1 English(EN) · Beren Millidge ·

    Can Scale Save Us From Plasticity Loss in Large Language Models?

    The loss of plasticity - the ability of a network to learn new information after having already learned older information - is a fundamental challenge in creating artificial neural networks capable of continual learning. Although this phenomenon has been known for decades, it has…