English(EN) Seems GPT-5.2 reaches expert level in peer review: 45 scientists took 469 hours evaluating human & AI reviews on 82 papers.

GPT-4.2 在科学同行评审中达到专家级人类表现

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-21 18:26

一项最新评估发现，OpenAI 的语言模型版本 GPT-4.2 在科学同行评审方面的表现与人类专家相当。在一项涉及 45 名科学家、耗时 469 小时评估 82 篇论文的研究中，该 AI 的评审被发现与顶级科学期刊的评分评审员的评审具有竞争力。然而，该 AI 仍存在不足之处，表明 AI 与人类协作的混合方法是同行评审的最佳选择。 AI

影响 AI 模型在科学同行评审等复杂任务中正变得与人类专家具有竞争力，这表明效率提高和更广泛采用的潜力。

排序理由该集群描述了对 AI 模型在特定领域（科学同行评审）能力的研究评估，而不是新模型发布或重大的行业级事件。[lever_c_demoted from research: ic=1 ai=1.0]

在 Bluesky Jetstream — AI desk 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Bluesky Jetstream — AI desk TIER_1 English(EN) · emollick.bsky.social · 2026-05-21 18:26

Seems GPT-5.2 reaches expert level in peer review: 45 scientists took 469 hours evaluating human & AI reviews on 82 papers.

Seems GPT-5.2 reaches expert level in peer review: 45 scientists took 469 hours evaluating human & AI reviews on 82 papers. "Surprisingly, current AI reviewers are competitive even with the top-rated reviewers in Nature’s official peer review..." though not without weaknesses, s…

报道来源 [1]

Seems GPT-5.2 reaches expert level in peer review: 45 scientists took 469 hours evaluating human & AI reviews on 82 papers.

相关实体

相关话题