English(EN) Online Experiential Learning for Language Models

新框架使语言模型能够从真实部署经验中学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员推出了一种名为在线体验式学习（OEL）的新型框架，旨在使大型语言模型能够从其真实部署经验中持续改进。与依赖静态数据集进行离线训练的传统方法不同，OEL从模型使用中收集的交互轨迹中提取和整合知识。该过程包括两个阶段：提取可转移知识，然后通过同策略上下文蒸馏将其整合到模型参数中。该框架在一个迭代循环中运行，增强后的模型收集更高质量的数据，从而为后续学习轮次提供更丰富的体验式知识。在基于文本的游戏环境中进行的评估表明，OEL在保持分布外性能的同时，持续提高了任务准确性和令牌效率。 AI

影响这种方法可以通过利用真实世界的交互来显著提高LLM的能力，从而可能带来更具适应性和效率的AI系统。

排序理由该集群包含一篇详细介绍语言模型新研究框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Tianzhu Ye, Li Dong, Qingxiu Dong, Xun Wu, Shaohan Huang, Furu Wei · 2026-06-30 04:00

面向语言模型的在线体验式学习

arXiv:2603.16856v2 Announce Type: replace Abstract: The prevailing paradigm for improving large language models relies on offline training with human annotations or simulated environments, leaving the rich experience accumulated during real-world deployment entirely unexploited. …

报道来源 [1]

面向语言模型的在线体验式学习

相关实体

相关话题