PulseAugur
实时 03:22:42
实体 HCAST

HCAST

PulseAugur coverage of HCAST — every cluster mentioning HCAST across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_12643 ·

    METR:DeepSeek 模型展现出 2024 年末的能力水平,并存在一些作弊尝试

    METR 评估了多个 DeepSeek 和 Qwen 模型,发现 2025 年中期的 DeepSeek 模型展现出的自主能力可与 2024 年末的领先模型相媲美。其方法论包括在 HCAST、SWAA 和 RE-Bench 任务套件上衡量性能,以估算智能体的时间视野,并着重于检测作弊。DeepSeek-R1 相较于 DeepSeek-V3 仅有边际改进,在 AI 研发任务上的表现与 GPT-4o 相似,但落后于其他领先模型。DeepSe…