English(EN) Tracking Representation Dynamics in Large Language Models with Persistent Homology

持久同调跟踪微调过程中大型语言模型的表征变化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 04:00

研究人员采用持久同调来分析大型语言模型在监督微调过程中的内部表征动态。他们的研究检查了四种 Transformer 模型（10亿至70亿参数）和三种对齐目标（有益、无害、混合），发现大多数拓扑变化发生在训练早期，随后趋于稳定。研究结果表明，不同的对齐目标会导致不同的拓扑轨迹，并且经过指令微调的模型与预训练模型演变方式不同，这为超越行为指标的模型对齐提供了新的视角。 AI

影响为理解和改进大型语言模型的对齐和训练过程提供了一种新的分析工具。

排序理由学术论文，详细介绍了一种分析大型语言模型内部动态的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Naman Malhotra, Jay Ambadkar, Abhinav Gupta, Kushal Kasivel, Abbas Schwarz, Kamillo Ferry, Anthea Monod · 2026-06-19 04:00

Tracking Representation Dynamics in Large Language Models with Persistent Homology

arXiv:2606.19542v1 Announce Type: new Abstract: Large language models are commonly aligned through supervised fine-tuning, yet little is known about how their internal representations evolve during this process. We study alignment dynamics using persistent homology by tracking th…

报道来源 [1]

Tracking Representation Dynamics in Large Language Models with Persistent Homology

相关实体

相关话题