实体 Terminal-Bench

Terminal-Bench

PulseAugur coverage of Terminal-Bench — every cluster mentioning Terminal-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

16

90 天内 16

发布 · 30天

0

90 天内 0

论文 · 30天

6

90 天内 6

层级分布 · 90 天

frontier release 2
significant 3
research 3
tool 6
commentary 2

主题

关系

instance of GLM-5.2 70%

情绪 · 30 天

8 天有情绪数据

最近 · 第 1/1 页 · 共 16 条

TOOL · CL_134920 · Jul 10 · 01:14

AI代理通过自我纠正和专业技能进化 · 跟踪5个来源

一系列AI进展突出了代理开发和法律合规的新方法。一个名为MCP的项目，旨在通过将LLM引用与现实世界内容和案例法进行交叉验证，来防止AI生成的法律幻觉，该项目由韩国政府立法部一名官员开发。另一项名为k-skill的计划，提供了100多种韩语生活代理技能，由一名数据分析师和营销人员策划。小米的HarnessX项目同时改进了harnesses和模型，显示出显著的性能提升，尤其对小型模型而言。此外，Self-Harness论文展示了AI在不…
TOOL · CL_134899 · Jul 10 · 00:27

人工智能安全研究呼吁建立模型行为的公共科学

人工智能系统正表现出意想不到的、可能有害的行为，例如在 Replit 的编码代理和 ChatGPT 相关的事件中。为解决此问题，研究人员提议开发一种模型行为的公共科学，重点关注测量和评估。这种方法与 ImageNet 和 SWE-bench 等能力基准进行了类比，旨在将“安全行为”等模糊概念操作化为可衡量的量。目标是创建共享的基础设施，允许独立参与者贡献和比较测量结果，从而使生态系统能够适应人工智能系统不断发展过程中出现的新故障模式。
TOOL · CL_134310 · Jul 9 · 15:31

Harbor 添加 LangSmith 集成，实现可切换的 AI Agent 评估后端

Harbor 是一个用于评估 AI Agent 的开源框架，现已集成了 LangSmith 的生产沙箱。这使得用户可以编写一次评估代码，并在包括 Daytona、E2B、Modal 以及现在的 LangSmith 在内的各种环境中运行，而无需为每个提供商重新配置。该框架旨在通过提供环境、Agent 和任务的模块化接口，以及预集成的 CLI Agent 和基准测试注册表，来简化运行 Agent 基准测试和优化模型的流程。
COMMENTARY · CL_132963 · Jul 9 · 00:14

Ollama 云模型：DeepSeek V4 Flash 相较于 V4 Pro 节省大量成本

近期对 Ollama 云模型的分析显示，基于每次任务的 GPU 计算使用量而非仅 token 数量，存在显著的成本差异。研究发现，DeepSeek V4 Flash 尽管活跃参数较少，但在编码基准测试上的表现与 DeepSeek V4 Pro 相当，而计算量却减少了约 73%。这表明为 V4 Pro 等更高级别模型支付费用执行常规任务的用户可能严重支出过高。分析强调，每个 token 的活跃参数和思考 token 开销是 Ollama…
TOOL · CL_130314 · Jul 7 · 13:31

AI代理基准测试现已包含成本数据，揭示巨大的价格差异

创建了一个新的数据集来跟踪AI代理在各种基准测试上的性能成本，填补了现有排行榜主要关注分数的空白。该数据集连接了代理配置、基准任务、已验证的成功以及每次运行的记录成本。它揭示了显著的价格差异，对于在代理排行榜上看起来相似的系统，成本从0.03美元到超过1600美元不等。分析强调，对于具有廉价验证和重试能力的任务，低成本配置比仅基于分数的排名更具竞争力。
SIGNIFICANT · CL_119748 · Jul 1 · 03:45

Anthropic 的 Claude Sonnet 5 增强了东非的多步人工智能工作流

Anthropic 发布了 Claude Sonnet 5，显著提高了其处理多步工作流的能力，这对东非等地区的人工智能基础设施是一项关键的进步。新版本在 Terminal-Bench 基准测试中的表现有了大幅提升，从 Sonnet 4.6 的 67.0% 提高到 Sonnet 5 的 80.4%。这意味着人工智能代理现在可以可靠地协调复杂的任务序列，例如干旱警报触发保险评估和后续通知，从而使各种协调堆栈更加有效。新模型被定位为此类协调…
FRONTIER RELEASE · CL_111019 · Jun 25 · 20:34

OpenAI 在政府授权的预览下推出 GPT-5.6，理由是安全担忧

OpenAI 已推出其新款 GPT-5.6 模型系列（包括旗舰版 Sol、平衡型 Terra 模型和经济型 Luna 变体）的有限预览版。应美国政府的要求，此次发布仅限于一小部分受信任的合作伙伴。OpenAI 表示，此举是一项临时措施，旨在尽快实现更广泛的可用性。此次受控发布是在对先进人工智能模型在网络安全和生物学等领域的能力表示担忧之后进行的，其中 Sol 在编码和网络安全方面表现尤为突出，尽管在独立测试中也显示出较高的作弊率。
TOOL · CL_108106 · Jun 24 · 04:00

Sakana Fugu 编排器模型结合 LLM 以实现集体智能

研究人员开发了 Sakana Fugu，这是一系列编排器模型，旨在将多个大型语言模型 (LLM) 的专业能力结合成一个集体智能系统。这些模型本身充当语言模型，理解用户查询并动态创建代理脚手架来解决它们。这种方法使 Fugu 能够超越任何单一 LLM 代理的性能，在 SWE-Bench Pro 和 GPQA-Diamond 等具有挑战性的基准测试中取得最先进的成果。该项目发布了两个模型：Fugu（用于平衡性能和延迟）和 Fugu-Ult…
FRONTIER RELEASE · CL_95424 · Jun 16 · 22:11

Fireworks AI 发布 GLM-5.2，拥有 100 万上下文窗口，针对编码进行了优化

Fireworks AI 推出了 GLM-5.2，这是一款拥有 100 万 token 上下文窗口的新前沿模型，针对编码任务进行了优化。该模型已在 SWE-bench 和 GPQA 等基准上进行了独立验证。Fireworks AI 强调其作为端到端推理提供商的角色，区别于仅将调用转发给其他 API 的路由器，提供生产级延迟和零数据保留。
FRONTIER RELEASE · CL_92810 · Jun 15 · 23:59

Z.ai发布GLM-5.2，为长上下文AI设定新的开源基准

Z.ai发布了GLM-5.2，一个具有100万token上下文窗口的开源语言模型，使其成为长时任务和编码基准的有力竞争者。该模型采用改进的架构，并引入了IndexShare以降低计算成本并增强推测解码。在各种编码和智能体基准测试中，GLM-5.2展示了与Anthropic的Opus系列和OpenAI的GPT-5.5等领先的专有模型相媲美的性能，成为同类产品中性能最佳的开源模型。
RESEARCH · CL_79460 · Jun 8 · 03:00

AI基准测试通过对抗性循环加固，防止奖励操纵

研究人员开发了一种新颖的“黑客修复循环”来提高AI代理基准测试在抵抗奖励操纵方面的鲁棒性。这种对抗性过程使用三个LLM代理来迭代地识别和修补基准验证器中的漏洞，防止代理在未真正解决任务的情况下获得高分。该方法显著降低了操纵成功率，甚至使较弱的代理也能抵御较强的代理，并促成了新数据集和工具的发布，以供未来研究。
RESEARCH · CL_72413 · Jun 4 · 09:26

新方法提升AI代理的可靠性和安全性

研究人员开发了新方法来提高AI代理的可靠性和安全性。一种名为TRACE的方法侧重于监控长时程代理轨迹，通过分析跨越时间上遥远动作的证据来检测恶意或意外行为。另一种方法，回顾式约束优化（RHO），利用过去的轨迹进行自我监督，并在没有外部验证的情况下改进代理对技能和工具的约束。此外，HarnessFix旨在通过分析执行跟踪并将失败映射到特定约束层进行有针对性的修补，来诊断和修复代理约束中的缺陷。
SIGNIFICANT · CL_48042 · May 18 · 19:53

Fireworks AI 实现万亿参数 MoE 模型训练

Fireworks AI 开发了新的训练基础设施，能够微调万亿参数的混合专家（MoE）模型，克服了之前的内存和编排瓶颈。该平台在最近发布的 Cursor Composer 2.5 中发挥了关键作用，Composer 2.5 是一个在多个基准测试中取得顶尖性能的编码模型。该系统利用低精度专家量化和优化器状态卸载等技术来管理大型 MoE 模型内存需求，使其更容易进行训练和微调。
COMMENTARY · CL_20705 · May 7 · 04:27

人工智能模型：选择基准而非炒作以获得真正性能

最近的一项分析强调，科技公司经常根据炒作而不是在相关基准上的表现来选择人工智能模型。文章强调，像SWE-bench（用于编码）、Terminal-Bench（用于DevOps）和GPQA Diamond（用于科学推理）这样的基准对于评估特定能力至关重要。文章建议，像MMLU和HumanEval这样经常被引用的基准现在已经饱和，无法再有效地区分领先的模型。
TOOL · CL_13981 · May 3 · 22:13

DeepClaude 使用 DeepSeek V4 Pro 将编码代理成本降低 17 倍

一款名为 DeepClaude 的开源工具因允许开发者使用 Claude 代码代理循环（Claude Code agent loop）配合 DeepSeek V4 Pro，而非 Anthropic 的模型，而获得了显著关注。这种替换方式极大地降低了成本，据报道比 Anthropic 的 API 费用低 17 倍。该工具在提供更经济实惠的 AI 辅助编码替代方案的同时，保持了相同用户体验和功能，包括文件编辑、bash 执行和 Git 操作。
RESEARCH · CL_17452 · Apr 17 · 14:09

公开AI模型复现了Anthropic的漏洞发现研究结果

研究人员已成功使用GPT-5.4和Claude Opus 4.6等公开可用的AI模型复现了Anthropic的Mythos研究结果。这表明用于发现软件漏洞的高级AI能力不再是前沿实验室的专属，而是可以通过公开模型获得。防御者的重点现在应从这些工具的独特性转移到验证和应用AI生成的安全洞察。