研究人员开发了一个名为选后分布模型评估(PS-DME)的新框架,以应对在预先不知道目标性能指标的情况下评估机器学习模型所面临的挑战。该方法使用e值来控制选后偏差,即使在数据依赖的预选之后,也能确保模型进行统计上有效的比较。在文本到SQL和网络性能等各个领域的实验表明,PS-DME在可靠地探索性能-可靠性权衡方面是有效的。 AI
影响 在预定义性能目标时,提供了一种统计上可靠的模型比较方法,有助于可靠的模型选择。
排序理由 这是一篇介绍模型评估新统计框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →