English(EN) DeferMem: Query-Time Evidence Distillation via Reinforcement Learning for Long-Term Memory QA

DeferMem框架通过强化学习增强LLM长期记忆问答能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-21 12:36

研究人员开发了DeferMem，一个旨在改进大型语言模型在处理长期对话记忆时的问答能力的新框架。该系统将过程分为初步的广泛候选检索和随后的条件查询证据蒸馏阶段。DeferMem利用一种名为DistillPO的强化学习算法，将检索到的信息提炼成简洁、相关的证据，在准确性和效率方面优于现有方法。 AI

影响提高了LLM代理在复杂、长上下文问答任务中的性能。

排序理由该集群包含一篇学术论文，详细介绍了一个用于改进LLM问答能力的新框架和算法。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Jianing Yin, Tan Tang · 2026-05-22 04:00

DeferMem：通过强化学习进行查询时证据蒸馏，实现长期记忆问答

arXiv:2605.22411v1 Announce Type: new Abstract: Large language model (LLM) agents still struggle with long-term memory question answering, where answer-supporting evidence is often scattered across long conversational histories and buried in substantial irrelevant content. Existi…
arXiv cs.AI TIER_1 English(EN) · Tan Tang · 2026-05-21 12:36

DeferMem：通过强化学习进行查询时证据蒸馏，实现长期记忆问答

Large language model (LLM) agents still struggle with long-term memory question answering, where answer-supporting evidence is often scattered across long conversational histories and buried in substantial irrelevant content. Existing memory systems typically process memory befor…