一位开发者进行了为期 28 小时的实验,使用了四个并发的 Claude Code 会话,仅通过共享文件系统进行协调。这些会话分别命名为 compass、Soul、V5 和 nautilus-core,协作完成了合同谈判和错误检测等任务。实验强调了基于文件系统的合同在代理通信中的有效性,特别是当代理对关系有利害关系且截止日期在它们的提示中可见时。一个关键的发现是测试通过率存在显著差异,其中报告的“22/22 个测试通过”实际上是 11/22 个测试失败,原因是缺少 Python 模块初始化文件。 AI
影响 展示了一种新颖的、低开销的多代理 AI 协作和可靠性测试方法。
排序理由 这是一个关于 AI 模型实验的详细案例研究,提供了具体数据和发现。[lever_c_demoted from research: ic=1 ai=1.0]
在 dev.to — Claude Code tag 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →