研究人员推出了一种名为在线体验式学习(OEL)的新型框架,旨在使大型语言模型能够从其真实部署经验中持续改进。与依赖静态数据集进行离线训练的传统方法不同,OEL从模型使用中收集的交互轨迹中提取和整合知识。该过程包括两个阶段:提取可转移知识,然后通过同策略上下文蒸馏将其整合到模型参数中。该框架在一个迭代循环中运行,增强后的模型收集更高质量的数据,从而为后续学习轮次提供更丰富的体验式知识。在基于文本的游戏环境中进行的评估表明,OEL在保持分布外性能的同时,持续提高了任务准确性和令牌效率。 AI
影响 这种方法可以通过利用真实世界的交互来显著提高LLM的能力,从而可能带来更具适应性和效率的AI系统。
排序理由 该集群包含一篇详细介绍语言模型新研究框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →