一种名为 Transformer² 的新微调方法被提议用于 ICLR 2025,它建议通过调整现有参数而不是添加新参数来专门化 AI 模型。这种方法侧重于微调权重矩阵中的奇异值,这些奇异值代表了特定输入方向的增益。据报道,该方法是 Sakana AI 的 Fugu 模型背后的奇异值微调 (SVF) 技术,与 LoRA 相比,在参数少得多的情况下表现更优。 AI
影响 这种方法可能导致更高效、参数量更少的模型专门化,从而可能降低微调的计算成本。
排序理由 该集群描述了一种在即将举行的会议论文中提出的一种新的微调方法。[lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — mastodon.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →