研究人员采用持久同调来分析大型语言模型在监督微调过程中的内部表征动态。他们的研究检查了四种 Transformer 模型(10亿至70亿参数)和三种对齐目标(有益、无害、混合),发现大多数拓扑变化发生在训练早期,随后趋于稳定。研究结果表明,不同的对齐目标会导致不同的拓扑轨迹,并且经过指令微调的模型与预训练模型演变方式不同,这为超越行为指标的模型对齐提供了新的视角。 AI
影响 为理解和改进大型语言模型的对齐和训练过程提供了一种新的分析工具。
排序理由 学术论文,详细介绍了一种分析大型语言模型内部动态的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
- large language models
- persistent homology
- Pretrained Models
- supervised fine-tuning
- transformer language models
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →