研究人员发现,深度神经网络之所以常常无法学习到能够泛化到分布外 (OOD) 数据的表示,是因为它们无法将特征学习与数据生成过程的可识别性分离开来。研究表明,特征图、标签图和模型类的选择决定了假设的数据生成过程,并控制着 OOD 泛化,仅表示形式的改变就会导致 OOD 任务的性能差异巨大。该论文提出,成功的 OOD 推断不仅需要正确的特征,还需要能够表达目标和训练数据的模型类,并且这些数据能够覆盖相关的表示空间。 AI
影响 指出了当前神经网络架构在分布外泛化方面的一个关键限制,为模型开发提供了新的途径。
排序理由 该集群包含一篇学术论文,详细介绍了关于神经网络泛化的一项新理论发现。[lever_c_demoted from research: ic=1 ai=1.0]
- Neural Network
- Data-Generating Process
- Feature Engineering
- Mamba
- Out-of-Distribution Generalization
- Transformer
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →