研究人员推出了一种新颖的、受记忆增强的语言模型Mela,其灵感来源于记忆巩固的神经科学理论。Mela使用分层记忆模块(HMM),该模块具有在不同频率下运行的独立子模块,以捕获抽象和详细信息。这种架构使Mela能够在推理过程中执行在线记忆巩固,从而在不降低性能的情况下处理比标准Transformer模型长得多的上下文。 AI
影响 为语言模型引入了一种新的记忆架构,通过模仿生物记忆巩固来提高长上下文性能。
排序理由 该集群包含一篇详细介绍新颖模型架构的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →