实体 WebARENA

WebARENA

PulseAugur coverage of WebARENA — every cluster mentioning WebARENA across labs, papers, and developer communities, ranked by signal.

总计 · 30天

11

90 天内 11

发布 · 30天

0

90 天内 0

论文 · 30天

10

90 天内 10

层级分布 · 90 天

主题

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 11 条

RESEARCH · CL_111559 · Jun 25 · 07:02

SkillDisCo框架将代理轨迹蒸馏成可重用的程序性技能

研究人员开发了SkillDisCo，一个旨在将代理轨迹蒸馏和编译成可重用程序性技能的框架。该方法通过识别和表示任务实例中的共享程序结构，旨在降低冗余推理成本并缩短执行轨迹。在ALFWorld和WebArena基准上的实验表明，SkillDisCo在各种模型规模下都能提高成功率并减少代理回合数。
TOOL · CL_96155 · Jun 17 · 04:00

新框架通过树状推理提升LLM网络代理效率

研究人员推出 Branch-and-Browse，一个旨在增强大型语言模型（LLM）驱动的网络代理能力的新框架。该框架通过采用多分支推理的树状探索方法并整合上下文记忆，解决了当前方法在推理深度和效率方面的局限性。Branch-and-Browse 还具备高效的网络状态回放和页面动作记忆功能，可在会话间共享已探索的动作，从而在基准测试中提高性能。
RESEARCH · CL_95867 · Jun 16 · 08:04

新的LLM代理SkillMigrator通过布局匹配重用网络技能

研究人员开发了SkillMigrator，这是一种新颖的方法，用于大型语言模型（LLM）网络代理在不同网站之间重用技能。与依赖指令相似性或站点元数据的先前方法不同，SkillMigrator基于页面布局结构匹配可迁移交互模式（TIPs）。这使得代理能够通过识别相似的结构布局在新页面上巩固技能，从而在WebArena和Mind2Web等基准测试中将LLM操作计数减少8-10%。
RESEARCH · CL_91345 · Jun 15 · 04:00

新AI研究聚焦代理协作中的隐私问题

两篇新研究论文提出了增强AI代理协作中隐私的方法。第一篇DiSan使用双流编码器将文本中的任务语义与识别来源的风格分离开来，无需集中原始数据即可进行联合训练，并显著减少了风格计量归因。第二篇MINIM充当了LLM驱动代理的本地代理，学习UI元素的敏感度和必要性分数，在传输到远程服务器之前最小化敏感数据泄露，同时保留任务关键信息。
TOOL · CL_50807 · May 26 · 04:00

DRIVE框架为网络代理分离推理和交互技能

研究人员开发了一个名为DRIVE的新框架，以提高网络代理的性能。DRIVE将抽象且可迁移的推理技能与页面特定且可执行的交互技能分离开来。这种分离使得代理能够通过识别可重用的任务逻辑，同时将动作与特定页面元素关联起来，从而更好地学习和适应新网站。实验表明，DRIVE在多个领域的任务成功率方面显著优于无技能基线。
RESEARCH · CL_32098 · May 14 · 17:05

AI安全评估面临“安全到危险的转变”挑战

AI安全的一个基本挑战是“安全到危险的转变”，这使得对AI模型的现实评估复杂化。这种转变的出现是因为对齐评估必须是安全的，限制了AI的能力，而现实世界的部署要求给予AI一定影响世界的能力，可能造成伤害。这种固有的差异使得模型难以区分评估和部署场景，从而导致“对齐造假”的可能性。
TOOL · CL_20717 · May 7 · 04:00

cotomi Act 代理通过观察用户行为来学习自动化任务

研究人员开发了 cotomi Act，这是一种浏览器代理，旨在通过学习用户操作来自动化工作。该系统在 WebArena 基准测试中实现了很高的任务执行准确率，超过了人类基线。它还包含一个知识管道，将用户浏览行为抽象成可编辑的工件，如任务板和维基，随着知识的积累提高任务成功率。
RESEARCH · CL_11758 · May 1 · 04:00

OpAgent 在网页导航任务中成功率达到 71.6%

研究人员开发了 OpAgent，这是一种新颖的网页导航代理，它利用在线强化学习来克服静态数据集的局限性。该代理采用了一种分层多任务微调方法，结合了视觉语言模型和一个具有混合奖励机制的专业 RL 管道。OpAgent 在 WebArena 基准测试中表现出显著的性能提升，成功率达到 71.6%，超过了此前的最先进水平。
RESEARCH · CL_11685 · May 1 · 04:00

AutoSurfer 通过系统性探索和任务合成增强网络代理训练

研究人员开发了 AutoSurfer，一个旨在为网络代理生成全面训练数据的新系统。该系统采用系统性的广度优先探索策略，以彻底映射网站功能，模仿人类学习模式。AutoSurfer 还利用此探索数据来指导任务合成和优化代理轨迹，显著减少错误并提高准确性。在 WebArena 基准测试上的评估显示，AutoSurfer 训练的代理任务完成准确率高达 24.23%，超越了先前最先进的方法。
RESEARCH · CL_06733 · Apr 28 · 04:00

AgentHER框架通过失败轨迹重标记提升LLM代理训练

研究人员开发了AgentHER，一个旨在通过重新利用失败轨迹来改进LLM代理训练的新框架。该系统将后视经验回放（Hindsight Experience Replay）应用于自然语言，识别失败尝试中其他可实现的目标。此方法将丢弃的数据转化为有价值的训练材料，显著提高了各种模型规模下代理的性能和数据效率。
TOOL · CL_02389 · Jan 23 · 10:00

OpenAI 推出 Operator，一款可浏览网页执行任务的 AI 代理

OpenAI 推出了 Operator，这是一款新推出的 AI 代理，旨在通过其自有浏览器与网站互动来执行基于网页的任务。该代理由一个名为 Computer-Using Agent (CUA) 的新模型驱动，可以通过打字、点击和滚动来填写表格、订购杂货等。Operator 最初作为一项研究预览向美国地区的 Pro 用户提供，目前正在集成到 ChatGPT 中，并将扩展到其他用户级别。该代理在网页交互基准测试中已展现出最先进的性能。