PulseAugur
实时 05:11:18
实体 Gepa Ai Agent

Gepa Ai Agent

PulseAugur coverage of Gepa Ai Agent — every cluster mentioning Gepa Ai Agent across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
9
90 天内 9
发布 · 30天
0
90 天内 0
论文 · 30天
8
90 天内 8
层级分布 · 90 天
主题
情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 9 条
  1. TOOL · CL_92901 ·

    微软的 SkillOpt 方法通过单个 Markdown 文件将 GPT-5.5 提高了 23 分

    微软和三所中国大学开发的新方法 SkillOpt 表明,单个 Markdown 文件可以显著提高 AI 代理的性能。当在推理过程中用作上下文时,该文件在六项程序性基准测试中平均将 GPT-5.5 的分数提高了 23 分。这种方法优于手写指令、LLM 生成的指令以及四种专门的训练方法,预示着 AI 代理优化的一个显著趋势。

  2. RESEARCH · CL_78351 ·

    LEVI 系统以极低的成本提供 AlphaEvolve 功能

    一个名为 LEVI 的新开源系统已被开发出来,以显著降低的成本(据称便宜高达 35 倍)来模拟 AlphaEvolve 的功能。LEVI 的核心原则是,通过优化的搜索架构和智能路由,小型语言模型可以实现与大型模型相当或更优的结果。该系统在代码和提示优化任务中表现强劲,在 ADRS 和 IFBench 等基准测试中超越了现有框架,同时使用的计算资源更少。

  3. TOOL · CL_76391 ·

    GEPA框架提升语言模型算术应用题能力

    研究人员开发了 GEPA,一个旨在增强语言模型解决问题能力的新框架,特别是在算术应用题方面。该系统从基本提示开始,通过创建确定性基准、建立结构化评估方法以及同时演化模型输出的指令和格式来逐步改进它们。GEPA所展示的改进已显示出能有效地泛化到新的、未见过的数据集。

  4. RESEARCH · CL_74171 ·

    新的VISTA框架增强了LLM提示优化

    研究人员开发了VISTA,一个用于自动优化大型语言模型提示的新框架。该方法旨在克服现有反思性提示优化技术的局限性,这些技术可能不透明并导致性能下降。VISTA将假设生成与提示重写分离,从而实现更具可解释性的优化跟踪,并提高在算术应用题等复杂任务上的准确性。

  5. TOOL · CL_35049 ·

    Apple 的强化代理在执行前审查工具调用

    Apple 研究人员开发了一种“强化代理”,可在执行前主动验证工具调用,旨在预防错误而非事后纠正。该方法在 BFCL 不相关性和 τ²-Bench 等基准测试中取得了显著改进,推理模型审查员实现了 3:1 的有益/有害比率。该系统在 GEPA 提示优化方面也取得了适度提升,而无需重新训练模型。

  6. TOOL · CL_32439 ·

    GEPA通过分析失败轨迹优化AI提示

    研究人员开发了GEPA,一种用于优化复杂AI系统提示的新方法。GEPA分析失败的执行路径,并自动优化导致错误的特定模块的提示。在六项任务的测试中,GEPA的平均性能比GRPO方法高出6%,并且使用的回滚次数显著减少。

  7. RESEARCH · CL_36940 ·

    CANTANTE框架通过信用分配优化LLM多智能体系统

    研究人员开发了CANTANTE,一个旨在优化基于大型语言模型的多智能体系统配置的新框架。该系统通过将奖励分解为每个智能体的更新信号,解决了仅有系统级分数时分配性能功劳的挑战。CANTANTE在编程、数学推理和问答任务上进行了评估,与现有方法和未优化提示相比,它表现出更优越的性能,同时还降低了推理成本。

  8. TOOL · CL_22111 ·

    P^2O 方法通过优化提示和策略来增强 LLM 推理能力

    研究人员开发了一种名为 P^2O(联合策略与提示优化)的新方法,以解决大型语言模型在具有可验证奖励的强化学习(RLVR)中出现的优势崩溃问题。该技术在连续策略更新和离散提示演化之间交替进行,使用 GEPA 算法为具有挑战性的样本发现有效的提示。通过将这些提示蒸馏到模型的参数中,P^2O 提高了分布外泛化能力,并比现有方法取得了高达 9.5% 的性能提升。

  9. TOOL · CL_18887 ·

    新研究比较了大型语言模型的自动化提示词工程与专家提示词工程

    一篇新的研究论文探讨了与专家精心设计的提示词相比,自动化提示词优化对于大型语言模型的有效性。该研究系统地比较了人工设计的提示词、基础 DSPy 签名以及 GEPA 优化的 DSPy 签名在翻译、术语插入和语言质量评估任务中的表现。结果表明,自动化提示词和手动提示词通常能产生相似的质量,其性能因任务和模型配置而异。