PulseAugur
实时 10:20:23
English(EN) The Generalization Spectrum: A Chromatographic Approach to Evaluating Learning Algorithms

新的泛化谱评估AI学习迁移

研究人员引入了泛化谱,这是一个新颖的评估框架,旨在评估从特定示例中学习能在多大程度上迁移到新的、未见过的数据。这种方法超越了依赖于来自独立同分布(i.i.d.)测试集的单一聚合分数的传统方法。该框架跟踪在各种测试变体上的性能,从精确回忆到跨语言实现以及在重新构建下的上下文迁移,揭示了算法泛化能力的广度。对竞争性编程问题的初步实验表明,与监督微调(SFT)变体相比,强化学习(RL)在将记忆转化为近乎迁移方面更有效,而上下文内学习(ICL)则显示出强大但依赖于对应关系的迁移。 AI

影响 引入了一种新的评估方法,以更好地理解AI在标准基准之外的泛化能力。

排序理由 该集群包含一篇介绍学习算法新评估框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的泛化谱评估AI学习迁移

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Jinghan Zhang, Zerui Cheng, Shiqi Chen, Ge Zhang, Wenhao Huang, Jiashuo Liu, Junxian He, Tianle Cai ·

    The Generalization Spectrum: A Chromatographic Approach to Evaluating Learning Algorithms

    arXiv:2606.25450v1 Announce Type: cross Abstract: Traditional evaluations measure a learning algorithm's final performance on an i.i.d. test set, reducing learning to a single aggregate score. This approach obscures a fundamental question: to what extent does learning from a spec…

  2. arXiv cs.CL TIER_1 English(EN) · Tianle Cai ·

    The Generalization Spectrum: A Chromatographic Approach to Evaluating Learning Algorithms

    Traditional evaluations measure a learning algorithm's final performance on an i.i.d. test set, reducing learning to a single aggregate score. This approach obscures a fundamental question: to what extent does learning from a specific example generalize to others? Such per-sample…