据METR称,Anthropic的Claude Mythos Preview模型已展现出突破当前评估方法学极限的能力。该模型在50%的任务上达到16小时以上的完成时间,在80%的任务上达到3小时以上的完成时间,超越了此前的基准。这一进展凸显了AI能力的快速进步,并引发了对现有评估工具充分性的疑问。 AI
影响 证明AI模型正在超越当前的评估基准,预示着需要新的评估工具。
排序理由 该集群报告了一项对AI模型的新基准评估,该评估突破了现有评估方法的极限。
在 Mastodon — mastodon.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →