Hugging Face 推出了一种新的异步强化学习 (RL) 训练方法,可显著降低权重同步所需的带宽。传统方法需要在每个训练步骤中传输整个模型,对于大型模型而言,这可能达到 TB 级别。新方法在 TRL 库中实现,仅将更改的权重作为稀疏 safetensors 文件发送到 Hugging Face Bucket,从而将每个步骤的数据传输量从 GB 大幅减少到 MB。这项创新使得分离式训练设置成为可能,训练器和推理引擎可以在不同位置运行,而无需直接连接,仅依赖共享对象存储进行权重更新。 AI
影响 能够更高效、更分布式地训练大型 AI 模型,可能降低成本并提高可访问性。
排序理由 该条目描述了 AI 模型训练库中的一项技术创新和实现,而不是新的模型发布或重大行业事件。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →