PulseAugur
实时 13:11:22
实体 Model Evaluation & Threat Research

Model Evaluation & Threat Research

PulseAugur coverage of Model Evaluation & Threat Research — every cluster mentioning Model Evaluation & Threat Research across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 2 条
  1. RESEARCH · CL_12648 ·

    METR提出AI风险自主性评估协议

    模型评估与威胁研究(METR)计划发布了一个示例协议,用于评估AI模型潜在的自主性相关风险。该协议侧重于那些能够端到端执行有害任务而无需人工干预的系统,包括那些能够自主寻求人类协助的系统。METR的目标是使评估具有实用性、成本效益,并能在一个月内由一个小团队完成,预算为数百万美元。目的是提供一个危险能力的连续指标,为缓解策略提供信息,并允许社会监督。

  2. RESEARCH · CL_12649 ·

    METR发布AI模型能力与风险诱导指南

    模型评估与威胁研究组织(METR)发布了评估AI模型能力的指南,重点关注诱导技术。这些指南旨在衡量模型在经过一定程度的训练后增强的潜在性能,而非其原始状态。该过程包括初步的基本诱导,然后分析剩余的故障模式,以确定它们是否可以通过进一步的努力轻松修复。METR强调了在威胁建模中考虑微调、提示和工具的重要性,特别是对于开源或可能可修改的模型。