研究人员推出 Prism Transformer,这是一种新颖的架构,可修改标准的多头注意力机制。Prism Transformer 不在每个层中为每个注意力头分配相等的维度空间,而是跨层渐进地增加头的数量。这种方法建立了从局部到全局的表示层次结构,使早期层能够用更宽的头捕获复杂的局部模式,而更深的层则用更窄的头进行专业化。该架构是参数中性的,不会引入额外的训练或推理开销,但在下游零样本基准测试中始终优于统一基线。 AI
影响 这种架构修改可能导致模型容量的更有效利用,并在不增加计算成本的情况下提高下游任务的性能。
排序理由 该集群包含一篇详细介绍新颖 Transformer 架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →