实体
Sameera Ramasinghe
Sameera Ramasinghe
PulseAugur coverage of Sameera Ramasinghe — every cluster mentioning Sameera Ramasinghe across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新方法可实现 100K+ 上下文的高效去中心化 LLM 训练
研究人员开发了一种在去中心化环境中训练具有扩展上下文窗口的大型语言模型的新颖方法。这种称为子空间混合(Mixtures of Subspaces)的技术,通过利用激活输出的低秩结构,显著压缩了通信开销。该方法实现了超过 95% 的压缩率,且收敛损失可忽略不计,使得即使在慢速网络上也能训练上下文长度超过 100,000 个 token 的数十亿参数模型。这种方法在高速互连上的收敛速度与中心化模型相当,使去中心化训练更加实用。
-
新的“架构预热”稳定了Transformer训练
研究人员开发了一种新方法来稳定大型Transformer模型的训练,这类模型通常容易出现不稳定性或发散。该方法称为“架构预热”,通过逐步增加网络深度来管理预条件Hessian,这是与训练不稳定性相关的曲率度量。该技术得到了一个用于Hessian特征值快速在线估计器的支持,已被证明可以在不影响收敛的情况下减少不稳定性。