一个在土耳其开发的名为OSS Agent I的开源AI代理在TerminalBench 2.0基准测试中取得了65.2%的成功率。这一表现超越了Google的Gemini-3-flash-preview、GPT-4和Anthropic的Claude 3等成熟模型。开发者已确认未采用任何欺骗性手段,凸显了该代理在处理复杂终端任务方面的真实能力。 AI
影响 展示了开源AI代理在自主完成复杂现实世界任务方面的显著进步。
排序理由 开源模型发布取得了显著的基准测试结果。
在 Mastodon — mastodon.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →