实体 transformer activations

transformer activations

PulseAugur coverage of transformer activations — every cluster mentioning transformer activations across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

论文 1
其他 1

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_68434 · Jun 3 · 04:00

大语言模型研究深入探讨上下文学习机制

两篇新研究论文探讨了大语言模型中上下文学习的机制。一篇论文研究了是否可以使用Transformer激活来优化上下文样本选择，发现MLP输出与性能不相关，并提出了稀疏自编码器等未来研究方向。另一篇论文提出，自注意力层和MLP层的堆叠使Transformer能够根据上下文隐式更新MLP权重，可能在无需额外训练的情况下解释上下文学习能力。

大语言模型研究深入探讨上下文学习机制