研究人员推出CoCoReviewBench,这是一个旨在更可靠地评估AI审稿人的新基准。该基准解决了现有指标的局限性,这些指标严重依赖人工审稿,而人工审稿可能不完整或包含错误。CoCoReviewBench精选了来自ICLR和NeurIPS的3900篇论文,并纳入了审稿人-作者-元审稿人讨论,以提高正确性和完整性,揭示了当前的AI审稿人在准确性和幻觉方面仍存在困难。 AI
影响 提供了一种更强大的评估AI审稿人的方法,突出了当前的局限性并指导未来的发展。
排序理由 该集群描述了一篇介绍用于评估AI系统基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →