PulseAugur
实时 04:04:50
English(EN) Seems GPT-5.2 reaches expert level in peer review: 45 scientists took 469 hours evaluating human & AI reviews on 82 papers.

GPT-4.2 在科学同行评审中达到专家级人类表现

一项最新评估发现,OpenAI 的语言模型版本 GPT-4.2 在科学同行评审方面的表现与人类专家相当。在一项涉及 45 名科学家、耗时 469 小时评估 82 篇论文的研究中,该 AI 的评审被发现与顶级科学期刊的评分评审员的评审具有竞争力。然而,该 AI 仍存在不足之处,表明 AI 与人类协作的混合方法是同行评审的最佳选择。 AI

影响 AI 模型在科学同行评审等复杂任务中正变得与人类专家具有竞争力,这表明效率提高和更广泛采用的潜力。

排序理由 该集群描述了对 AI 模型在特定领域(科学同行评审)能力的研究评估,而不是新模型发布或重大的行业级事件。[lever_c_demoted from research: ic=1 ai=1.0]

在 Bluesky Jetstream — AI desk 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. Bluesky Jetstream — AI desk TIER_1 English(EN) · emollick.bsky.social ·

    Seems GPT-5.2 reaches expert level in peer review: 45 scientists took 469 hours evaluating human & AI reviews on 82 papers.

    Seems GPT-5.2 reaches expert level in peer review: 45 scientists took 469 hours evaluating human & AI reviews on 82 papers. "Surprisingly, current AI reviewers are competitive even with the top-rated reviewers in Nature’s official peer review..." though not without weaknesses, s…