PulseAugur
实时 17:07:19
English(EN) Nanochat vs Llama for training from scratch? [P]

机器学习从业者就 Nanochat 与 Llama 从头开始训练模型进行辩论

一位用户正在就为新训练运行选择模型架构寻求建议,目标是选择一个与 Hugging Face Transformers 库兼容的开源项目。他们之前的项目成功地使用 Nanochat 进行预训练和 SFT,但生成的模型与 Transformers 不直接兼容。用户正在考虑 Llama 架构,因为它具有潜在的互操作性,但也在权衡 Nanochat 的优势,例如其自动缩放深度参数。他们正在寻求关于最佳架构或确保兼容性的方法的建议。 AI

影响 为研究人员提供关于为开源项目选择兼容模型架构的指导。

排序理由 用户正在就研究项目的模型架构选择征求建议,而不是宣布新版本或重大进展。

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/MachineLearning TIER_1 English(EN) · /u/centerstate ·

    Nanochat vs Llama for training from scratch? [P]

    <!-- SC_OFF --><div class="md"><p>Hey all - I'm engaged in a project training a model entirely on historical data, which I've <a href="https://www.reddit.com/r/LocalLLaMA/comments/1s4gga8/comment/ocrwkmt/?context=3">posted about before on this subreddit.</a> My last training run …