实体
K Fac
K Fac
PulseAugur coverage of K Fac — every cluster mentioning K Fac across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
-
Layerwise LQR 框架使用几何感知控制优化深度网络
研究人员开发了 Layerwise LQR (LLQR),一个用于深度学习模型的新优化框架。LLQR 将二阶优化方法(如牛顿法)重新表述为线性二次调节器问题。这种方法可以学习结构化的逆预处理器,在不计算完整曲率矩阵的情况下捕获全局层级动态。在 ResNets 和 Transformers 上的实验表明,LLQR 可以在计算开销极小的情况下提高优化速度和最终模型性能。
-
CrispEdit 算法通过保留通用能力来增强 LLM 编辑
研究人员开发了 CrispEdit,一种用于编辑大型语言模型 (LLM) 的新算法,该算法侧重于在修改特定行为的同时保留通用能力。该方法将编辑构建为一个约束优化问题,使用低曲率投影来确保更改不会破坏模型的广泛功能。通过采用 Kronecker-factored approximate curvature (K-FAC) 和无矩阵投影仪等技术,CrispEdit 实现了高效、可扩展的编辑,并在标准基准测试中以最小的能力下降显著提高了编辑成功率。