PulseAugur
实时 07:26:05
实体 CoCoReviewBench

CoCoReviewBench

PulseAugur coverage of CoCoReviewBench — every cluster mentioning CoCoReviewBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_25544 ·

    新基准CoCoReviewBench改进AI审稿人评估

    研究人员推出CoCoReviewBench,这是一个旨在更可靠地评估AI审稿人的新基准。该基准解决了现有指标的局限性,这些指标严重依赖人工审稿,而人工审稿可能不完整或包含错误。CoCoReviewBench精选了来自ICLR和NeurIPS的3900篇论文,并纳入了审稿人-作者-元审稿人讨论,以提高正确性和完整性,揭示了当前的AI审稿人在准确性和幻觉方面仍存在困难。