实体
transformer language models
transformer language models
PulseAugur coverage of transformer language models — every cluster mentioning transformer language models across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
New GiLT model uses dependency graphs to boost Transformer language models
Researchers have developed GiLT, a new Transformer language model that incorporates dependency graphs to enhance syntactic generalization. Unlike previous methods that add structural tokens, GiLT integrates linguistic i…
-
Stochastic KV Routing enables adaptive depth-wise cache sharing for LLMs
研究人员开发了一种名为 Stochastic KV Routing 的新方法,以减小 Transformer 语言模型的内存占用。该技术通过训练层随机关注先前层的 KV 状态,从而实现自适应的深度缓存共享。评估表明,该方法可以在不牺牲性能的情况下显著降低内存需求,甚至可以在数据受限的情况下充当一种正则化方法。