PulseAugur
实时 14:20:41
实体 llama-160m

llama-160m

PulseAugur coverage of llama-160m — every cluster mentioning llama-160m across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_100090 ·

    Transformer 前馈块:线性是学习到的,而非架构性的

    研究人员调查了 Transformer 前馈网络 (FFN) 的线性度,发现 FFN 块的线性程度是一种学习到的属性,而非架构属性。通过测量 GPT-2、Pythia-160m 和 llama-160m 等不同 Transformer 模型中的线性可恢复性 (R^2_lin),他们观察到相邻块之间存在显著差异。此测量值还可作为压缩信号,指示哪些块可以安全地替换为更小、单层的近似。