一篇新的研究论文探讨了不同第一阶段训练方法对视觉语言模型(VLM)的影响。研究发现,虽然第一阶段训练(如监督微调(SFT)或在线策略蒸馏(OPD))在域内表现相似,但它显著影响模型的熵模式。具体而言,与SFT相比,OPD导致更高的策略熵和答案多样性,尽管这些优势在第二阶段强化学习阶段后会减弱。 AI
影响 这项研究阐明了早期训练在VLM开发中的作用,表明虽然它会影响模型行为,但最终的性能提升可能有限。
排序理由 该集群包含一篇详细介绍模型训练方法实证结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →