PulseAugur
实时 20:54:33
实体 stratified sampling

stratified sampling

PulseAugur coverage of stratified sampling — every cluster mentioning stratified sampling across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_95075 ·

    LLM 评估:分层抽样揭示隐藏的回归问题

    本文讨论了使用单一聚合通过率来评估大型语言模型 (LLM) 的局限性。文章认为,这一指标可能会掩盖特定数据切片中显著的性能回归。作者提倡使用分层抽样来创建更细致的评估集,确保所有数据段都得到充分的代表和测试。