PulseAugur
实时 21:32:41
English(EN) Empowering GUI Agents via Autonomous Experience Exploration and Hindsight Experience Utilization for Task Planning

新方法提升小型 LLM GUI 代理的规划能力

研究人员开发了一种名为 PEEU(Planning Experience Exploration and Utilization,规划经验探索与利用)的新方法,以增强小型开源多模态大语言模型(MLLMs)在 GUI 代理任务规划方面的能力。该方法通过自主探索环境以收集经验,并利用事后经验创建高级训练数据,解决了这些模型在规划和跨网站泛化方面的局限性。实验表明,PEEU 显著提高了性能,一个 7B 模型达到了 30.6% 的准确率,超过了更大的 Qwen2.5-VL-32B 模型,并证明了事后高级任务构建对于分布外规划的重要性。 AI

影响 增强了小型开源 LLM 在实际 GUI 代理应用中的规划和泛化能力。

排序理由 该集群包含一篇详细介绍新方法和改进 LLM 能力的实验结果的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新方法提升小型 LLM GUI 代理的规划能力

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Tianyi Men, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao ·

    Empowering GUI Agents via Autonomous Experience Exploration and Hindsight Experience Utilization for Task Planning

    arXiv:2606.27330v1 Announce Type: cross Abstract: Multimodal web agents can assist humans in operating repetitive GUI tasks, where effective task planning is essential for decomposing complex tasks into executable actions. While small open source MLLMs are cost efficient and priv…

  2. arXiv cs.AI TIER_1 English(EN) · Jun Zhao ·

    Empowering GUI Agents via Autonomous Experience Exploration and Hindsight Experience Utilization for Task Planning

    Multimodal web agents can assist humans in operating repetitive GUI tasks, where effective task planning is essential for decomposing complex tasks into executable actions. While small open source MLLMs are cost efficient and privacy preserving compared with commercial large mode…