实体 SWE-Agent

SWE-Agent

PulseAugur coverage of SWE-Agent — every cluster mentioning SWE-Agent across labs, papers, and developer communities, ranked by signal.

总计 · 30天

5

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

5

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_123100 · Jul 2 · 17:35

新基准TestEvo-Bench评估AI代理在代码和测试协同进化方面的能力

研究人员推出了TestEvo-Bench，一个旨在评估AI代理在代码变更协同进化测试方面能力的新基准。该基准包含生成新测试和更新现有测试的任务，这些任务基于真实的提交历史和可执行环境。TestEvo-Bench通过定期挖掘新任务来减少数据泄露，当前快照包含来自152个开源Java项目的1200多个任务。
TOOL · CL_82560 · Jun 10 · 04:00

论文为AI编码助手定义“代理harness”

一篇新发表在arXiv上的论文提出了“代理harness”的正式定义，这个术语在软件工程中用于描述包装语言模型以创建编码代理的系统。作者追溯了该术语的起源，并将其与代理框架和SDK等相关概念区分开来。他们提出的定义旨在为工程实践和代理系统的科学比较提供一致的词汇，并用此定义测试了几个现有的harness。
TOOL · CL_54078 · May 27 · 01:14

DeepSeek研究员与AI代理合作撰写论文，提出自主性等级

DeepSeek研究员陈德力与AI代理合作撰写了一篇研究论文，其中AI生成了99%的内容。该论文题为《自主研究代理的L1-L5分类法》，提出了一个五级AI代理分类系统，类似于自动驾驶汽车的自主性等级。它分析了四种架构模式，并评估了17个现有的自主研究系统，确定了实现完全自主AI研究（L5）的关键瓶颈，例如持续的知识积累和可靠的自我评估。
TOOL · CL_44132 · May 22 · 12:44

Alibaba的Qwen3-Coder-Next在SWE-Bench上取得70.6分，采用稀疏MoE架构

阿里巴巴的Qwen3-Coder-Next是一个拥有800亿总参数、30亿激活参数的模型，在SWE-Bench Verified基准测试中取得了70.6分。这一成绩尤为引人注目，因为它在提供可下载的Apache 2.0许可权重的同时，能够媲美顶级的闭源模型。该模型采用了稀疏混合专家（MoE）架构和混合注意力机制，结合了用于长上下文的线性注意力与用于全局上下文重建的标准注意力。
TOOL · CL_44745 · May 22 · 04:00

Code Researcher 代理将 Linux 内核崩溃解决率提高了 48%

一种名为 Code Researcher 的新型深度研究代理已被开发出来，通过分析大型代码库及其提交历史来解决复杂的系统代码问题。该代理在 kBenchSyz 等基准测试中的表现显著优于现有方法，使用 GPT-4o 达到了 48% 的崩溃解决率，使用 Gemini 2.5-Flash 甚至达到了更高的解决率。该研究强调了收集广泛的全局上下文和采用多方面推理对于在大型系统中进行有效代码修改的关键作用。