研究人员开发了一种名为 Regret Pre-training 的新自监督学习框架,以改进因果语言模型。该方法利用了通常在标准因果训练中不可用的未来信息,通过使用双视图架构。该框架训练模型同时生成因果学生分布和未来条件教师分布,最小化它们之间的差异以传递面向未来的信号。在九个下游任务上的实验显示准确性显著提高,其中一种配置将 BoolQ 的性能提高了 18 个百分点以上。 AI
影响 该框架通过有效利用所有可用训练数据,有望带来更具知识性和准确性的语言模型。
排序理由 该集群包含一篇详细介绍语言模型新研究框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →