研究人员开发了 GrepSeek,一种训练 LLM 代理使用 shell 命令搜索文本语料库的方法,而不是传统的向量索引。该方法训练代理直接与原始文件交互,在开放域问答基准测试中取得了最先进的成果。训练过程包括一个由答案感知导师和答案盲规划器组成的双阶段蒸馏,然后使用 GRPO 进行精炼,并包含一个并行执行引擎,可将搜索速度提高 7.6 倍。 AI
影响 这种方法为基于向量的搜索提供了一种替代方案,有可能简化代理训练并提高特定任务的效率。
排序理由 该集群描述了一篇详细介绍 LLM 代理新训练方法的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →