English(EN) Autonomy Evaluation Resources

METR发布工具和协议以评估危险的AI自主性

作者 PulseAugur 编辑部 · [3 个来源] · 2024-03-15 10:00

METR（模型评估与威胁研究）发布了一套旨在评估AI模型危险自主能力的资源。这包括一个包含31个示例任务和186个其他任务摘要的任务套件，以及用于准确测量的软件工具和指南。目标是提供一种实用且经济高效的方法来评估来自自主AI系统的风险，从而能够制定适当的安全预防措施。 AI

排序理由发布了用于评估AI安全性的开源任务套件和协议，而非前沿模型发布或重大政策变更。

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

METR (Model Evaluation & Threat Research) TIER_1 English(EN) · 2024-03-15 12:00

Autonomy Evaluation Resources

<p>METR is sharing a collection of <a href="https://evaluations.metr.org/">resources</a> for evaluating potentially dangerous autonomous capabilities of frontier models.</p> <p>These resources include a task suite, some software tooling, guidelines on how to ensure an accurate me…
METR (Model Evaluation & Threat Research) TIER_1 English(EN) · 2024-03-15 11:00

Example autonomy evaluation protocol
METR (Model Evaluation & Threat Research) TIER_1 English(EN) · 2024-03-15 10:00

Example autonomy task suite