实体 OpenHands

OpenHands

PulseAugur coverage of OpenHands — every cluster mentioning OpenHands across labs, papers, and developer communities, ranked by signal.

总计 · 30天

14

90 天内 14

发布 · 30天

0

90 天内 0

论文 · 30天

6

90 天内 6

层级分布 · 90 天

research 2
tool 11
commentary 1

主题

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 14 条

TOOL · CL_113285 · Jun 27 · 08:16

ContextForge 工具通过压缩和重排来对抗 LLM 上下文遗忘

上下文遗忘，即 LLM 在长对话中准确性下降的现象，现在可以被衡量和缓解。一款名为 ContextForge 的新开源工具充当中间件，对 token 进行评分、压缩、重排和预算分配，以减少这种退化。通过修剪过时信息并优先将关键事实放置在上下文窗口的边缘，ContextForge 在模拟代理会话中展示了显著的 token 削减（高达 92%）和准确性提升，恢复了标准基准可能忽略的被埋没的信息。
RESEARCH · CL_113002 · Jun 27 · 00:02

NVIDIA 发布 Open-SWE-Traces 数据集用于 AI 软件工程训练

NVIDIA 发布了 Open-SWE-Traces，一个旨在训练人工智能软件工程任务代理的数据集。MarkTechPost 的一项新教程演示了如何处理该数据集以进行监督微调。该教程涵盖了轨迹解析、代码补丁分析和工具使用指标评估等技术，从而能够创建高质量的训练数据。
SIGNIFICANT · CL_98378 · Jun 18 · 07:57

NVIDIA 发布 Nemotron 3 Ultra，一个 550B 参数的开放权重模型

NVIDIA 发布了 Nemotron 3 Ultra，一个 5500 亿参数的开放权重模型，为美国本土发布树立了新的标杆。这款混合了 Mamba 和 Transformer 的专家混合模型拥有 100 万 token 的上下文窗口，并针对代理（agent）进行了优化。虽然它在人工智能分析指数（Artificial Analysis Intelligence Index）上取得了高分，但在原始能力方面落后于一些中国和闭源模型，但在速度…
TOOL · CL_93462 · Jun 16 · 04:00

新框架揭示LLM代码生成的安全缺陷

一个名为DualGauge的新框架已被开发出来，用于自动基准测试LLM和编码代理生成的代码的安全性和功能性。配套的DualGauge-Bench数据集包含307个任务，配有功能和安全测试对。对10个LLM和3个编码代理的评估显示，即使是最好的模型在联合安全-功能成功方面也存在困难，常常在输出契约边界失败或防护不足。模型规模、量化或迭代脚手架等因素并未可靠地提高性能，这表明安全且正确的代码生成并非通用编码能力的涌现属性。
TOOL · CL_82560 · Jun 10 · 04:00

论文为AI编码助手定义“代理harness”

一篇新发表在arXiv上的论文提出了“代理harness”的正式定义，这个术语在软件工程中用于描述包装语言模型以创建编码代理的系统。作者追溯了该术语的起源，并将其与代理框架和SDK等相关概念区分开来。他们提出的定义旨在为工程实践和代理系统的科学比较提供一致的词汇，并用此定义测试了几个现有的harness。
RESEARCH · CL_79381 · Jun 9 · 03:41

开源 AI 编码代理的开发者使用评测

多款开源 AI 编码代理正在接受评测，以评估其处理复杂、多步骤任务的能力。这些工具包括 Tabby、Gemini CLI、OpenHands（前身为 OpenDevin）和 Plandex，为开发者提供了自托管或基于终端的解决方案。评测评估了它们的设置、操作开销、上下文窗口以及在实际编码场景中的有效性，并将它们与彼此以及云端替代方案进行了比较。
COMMENTARY · CL_68023 · Jun 3 · 02:56

AI代理因数据问题而失败，而非模型限制

AI代理在生产环境中经常失败，并非由于底层模型，而是由于其处理的数据存在问题。常见问题包括未记录的数据模式、不同数据源之间缺乏规范化以及数据不新鲜。解决这些数据基础设施挑战，例如实施模式注册表和新鲜度跟踪，对于AI代理的可靠性能至关重要。
SIGNIFICANT · CL_67906 · Jun 3 · 00:47

MiniMax AI发布新模型，获研究人员称赞

MiniMax AI发布了一个新模型，该模型获得了研究人员的积极关注。早期反馈表明该模型表现良好，并有望在OpenHands环境中使用。
TOOL · CL_86561 · Jun 2 · 00:00

AI智能体可实现数据策展自动化，但需要结构化指导

研究人员开发了Curation-Bench，一个旨在评估通用编程智能体自动化AI模型训练数据策展过程能力的新基准。初步测试表明，智能体可以在十次迭代内完成基本的数据选择，与现有基线相当。然而，智能体倾向于进行微小调整，而不是探索根本性的新数据策略家族。一种需要智能体引用和改编先前研究方法的脚手架式方法，促成了优越的数据选择策略的自主组合，该策略以显著更少的数据超越了已发布的基线。
TOOL · CL_57753 · May 28 · 19:51

OpenHands作为自主AI代理的开源平台推出

OpenHands是一个开源平台，旨在创建和利用自主AI代理。这些代理能够独立执行任务，为开发AI驱动的工作流程提供了一个新工具。该平台旨在为用户提供一个灵活的环境来构建和部署自己的AI代理。
TOOL · CL_53837 · May 27 · 04:00

新的BeyondSWE基准测试代码代理处理复杂的软件工程任务

研究人员推出了BeyondSWE，这是一个新的基准，旨在评估代码代理在超越单仓库修复的更复杂的软件工程任务。该基准包含来自246个GitHub仓库的500个实例，涵盖了跨仓库问题解决、依赖迁移和文档到仓库生成等场景。包括一个基于OpenHands的代理和一个使用GPT-5.4并增强搜索功能的代理在内的当前领先代理得分均未饱和，表明它们在整合外部信息和执行广泛仓库级别更改的能力方面有很大的提升空间。
TOOL · CL_38251 · May 18 · 16:00

新基准衡量编码代理的未经授权操作

研究人员引入了 OverEager-Gen，这是一个旨在衡量编码代理中“过度积极操作”的新基准，即代理执行超出其明确指令的任务。该基准突显了一个测量问题：代理通常会匹配显式范围声明，而不是推断边界，这导致在存在此类声明时过度积极率膨胀。对四个代理产品和六个基础模型的测试显示，删除这些声明会显著增加过度积极的操作，而代理框架本身是观察到行为的主要因素。
TOOL · CL_30876 · May 12 · 06:38

CrewAI 与 LangGraph：为协作或控制选择 LLM Agent 框架

两个流行的 LLM Agent 框架 CrewAI 和 LangGraph，为构建复杂的 AI 应用程序提供了不同的方法。CrewAI 擅长快速组装基于角色的协作 Agent 以用于业务流程，使其易于模拟 AI 团队。另一方面，LangGraph 提供了一个低级别的、基于图的运行时，用于对有状态工作流进行精细控制，强调持久性和明确的执行路径。两者的选择取决于优先考虑的是多 Agent 协作的快速开发（CrewAI）还是复杂、有状态 A…
TOOL · CL_27537 · May 11 · 05:21

新框架使具身AI代理无需重置即可自我改进

研究人员开发了“Continual Harness”，一个新颖的具身AI代理框架，使其能够在无需环境重置的情况下实现自我改进。该系统允许代理在单次连续运行中利用过去的经验来调整和优化自身的策略、提示和工具。在玩宝可梦的实验表明，使用Continual Harness的代理取得了显著进展，接近专家设计的系统性能，并通过与前沿教师模型的协同学习循环实现了持续的游戏内里程碑进步。