研究人员引入了泛化谱,这是一个新颖的评估框架,旨在评估从特定示例中学习能在多大程度上迁移到新的、未见过的数据。这种方法超越了依赖于来自独立同分布(i.i.d.)测试集的单一聚合分数的传统方法。该框架跟踪在各种测试变体上的性能,从精确回忆到跨语言实现以及在重新构建下的上下文迁移,揭示了算法泛化能力的广度。对竞争性编程问题的初步实验表明,与监督微调(SFT)变体相比,强化学习(RL)在将记忆转化为近乎迁移方面更有效,而上下文内学习(ICL)则显示出强大但依赖于对应关系的迁移。 AI
影响 引入了一种新的评估方法,以更好地理解AI在标准基准之外的泛化能力。
排序理由 该集群包含一篇介绍学习算法新评估框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Generalization Spectrum
- Gotit.pub
- Hugging Face
- reinforcement learning
- ScienceCast
- supervised fine-tuning
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →