PulseAugur
实时 03:31:42
日本語(JA) ちょっとなぁ、記事の主張の規模が気になるというかMETRの研究そのものが怪しいです。報告では、57人のOSS開発者に、2025年の研究の3分の1の報酬で、自分で提出した開発タスクをやってもらおうとした。サンプルサイズが小さい、タスクの内容と開発者のレベルが曖昧、発表の信頼区間が無意味なほど広い… https:// me

METR AI生产力研究因方法论受批评

METR近期一项关于AI对软件开发生产力影响的研究,因方法论上的担忧而受到质疑。批评者指出,该研究的样本量仅为57名开源开发者,报酬较低,且任务复杂性和开发者技能水平方面缺乏清晰度。研究中宽泛的置信区间也被认为是怀疑其发现的原因。 AI

影响 对AI生产力研究方法论的质疑可能会影响AI在软件开发中作用的衡量和理解方式。

排序理由 该集群包含对一项研究的评论和批评,而不是研究本身或新发布的内容。

在 Mastodon — mastodon.social 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. Mastodon — mastodon.social TIER_1 日本語(JA) · [email protected] ·

    我对文章声明的规模有些担忧,或者说,METR研究本身似乎值得怀疑。该报告涉及要求57名OSS开发者执行他们自己提交的开发任务,报酬为2025年报酬的三分之一。样本量小,任务内容和开发者的技能水平模糊不清,且报告的置信区间因其宽度而毫无意义…… https:// me

    ちょっとなぁ、記事の主張の規模が気になるというかMETRの研究そのものが怪しいです。報告では、57人のOSS開発者に、2025年の研究の3分の1の報酬で、自分で提出した開発タスクをやってもらおうとした。サンプルサイズが小さい、タスクの内容と開発者のレベルが曖昧、発表の信頼区間が無意味なほど広い… https:// metr.org/blog/2026-02-24-uplif t-update/#wider-adoption-of-ai-has-made-it-more-difficult-to-measure-task-level-productivit…