METR(模型评估与威胁研究)发布了一套旨在评估AI模型危险自主能力的资源。这包括一个包含31个示例任务和186个其他任务摘要的任务套件,以及用于准确测量的软件工具和指南。目标是提供一种实用且经济高效的方法来评估来自自主AI系统的风险,从而能够制定适当的安全预防措施。 AI
排序理由 发布了用于评估AI安全性的开源任务套件和协议,而非前沿模型发布或重大政策变更。
在 METR (Model Evaluation & Threat Research) 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →