实体 Model Evaluation & Threat Research

Model Evaluation & Threat Research

PulseAugur coverage of Model Evaluation & Threat Research — every cluster mentioning Model Evaluation & Threat Research across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_12648 · Mar 15 · 11:00

METR提出AI风险自主性评估协议

模型评估与威胁研究（METR）计划发布了一个示例协议，用于评估AI模型潜在的自主性相关风险。该协议侧重于那些能够端到端执行有害任务而无需人工干预的系统，包括那些能够自主寻求人类协助的系统。METR的目标是使评估具有实用性、成本效益，并能在一个月内由一个小团队完成，预算为数百万美元。目的是提供一个危险能力的连续指标，为缓解策略提供信息，并允许社会监督。
RESEARCH · CL_12649 · Mar 15 · 09:00

METR发布AI模型能力与风险诱导指南

模型评估与威胁研究组织（METR）发布了评估AI模型能力的指南，重点关注诱导技术。这些指南旨在衡量模型在经过一定程度的训练后增强的潜在性能，而非其原始状态。该过程包括初步的基本诱导，然后分析剩余的故障模式，以确定它们是否可以通过进一步的努力轻松修复。METR强调了在威胁建模中考虑微调、提示和工具的重要性，特别是对于开源或可能可修改的模型。

METR提出AI风险自主性评估协议

METR发布AI模型能力与风险诱导指南