OpenAI 推出了 EVMbench,这是一个新的基准测试,旨在评估 AI 代理在检测、修补和利用智能合约漏洞方面的能力。该基准测试使用了来自审计的 117 个漏洞的精选集,旨在提高处理超过 1000 亿美元资产的区块链环境的安全性。早期结果显示,GPT-5.3-Codex 在利用模式下取得了 71.0% 的分数,比以前的模型有了显著改进,但检测和修补能力仍需进一步发展。 AI
排序理由 OpenAI 发布了一个新的基准测试,用于评估 AI 代理在智能合约安全方面的能力,这是一项面向研究的发布。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →