PulseAugur
实时 03:11:01
实体 GUI agents

GUI agents

PulseAugur coverage of GUI agents — every cluster mentioning GUI agents across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
5
90 天内 5
发布 · 30天
0
90 天内 0
论文 · 30天
5
90 天内 5
层级分布 · 90 天
情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 5 条
  1. TOOL · CL_48788 ·

    移动世界模型通过多模态预测增强GUI代理

    研究人员开发了一种新颖的方法,使用“移动世界模型”来增强GUI代理的功能。该模型探索了四种模态——增量文本、完整文本、基于扩散的图像和可渲染代码——来预测移动界面中的动作后果。研究结果表明,虽然可渲染代码在分布内任务中提供高保真度,但基于文本的反馈对于在线执行更具鲁棒性。这些世界模型生成的轨迹可以通过提供可转移的交互经验来提高代理性能,尽管它们可能无法完美保留原始数据分布。研究还表明,对于容易过度自信的代理,世界模型作为先验感知或训练…

  2. TOOL · CL_41190 ·

    新的CutVerse基准揭示GUI代理在媒体编辑任务中存在困难

    研究人员推出了CutVerse,一个旨在评估GUI代理在媒体后期制作任务中能力的新基准。该基准包含Premiere Pro和Photoshop等七个专业应用中的180多个复杂任务,需要密集的跨模态交互。当前代理在这些真实的编辑工作流程上的成功率仅为36%,凸显了在长时程可靠性和领域特定规划方面的局限性。

  3. TOOL · CL_49337 ·

    新的 AQuaUI 方法大幅减少 GUI 代理视觉令牌

    研究人员开发了 AQuaUI,一种新颖的方法,用于减少大型多模态模型 (LMM) 在与图形用户界面 (GUI) 交互时处理的视觉令牌数量。这种无需训练的技术在 GUI 屏幕截图上构建自适应四叉树,用单个令牌表示信息密度低的区域,同时保留空间关系。AQuaUI 还包含一种利用连续屏幕截图来维持时间一致性的条件算法,从而提高了 GUI 代理模型的准确性-效率权衡。

  4. TOOL · CL_38685 ·

    DocOS benchmark tests GUI agents' ability to use online docs

    Researchers have introduced DocOS, a new benchmark designed to evaluate GUI agents' ability to proactively use online documentation for task completion. Current GUI agents struggle with tasks requiring procedural knowle…

  5. TOOL · CL_28329 ·

    Mobile GUI agents guided by new world models trained on code and text

    Researchers have developed a novel approach to enhance mobile GUI agents by training world models across four modalities: delta text, full text, diffusion-based images, and renderable code. These models achieved state-o…