研究人员推出了一种新颖的语言模型架构Multiscreen,该架构利用一种称为筛选的机制来实现绝对的查询-键相关性。与标准的softmax注意力不同,筛选计算有界的查询-键相似度并应用阈值来丢弃不相关的键,从而实现更有效的聚合。实验表明,与Transformer基线相比,Multiscreen在验证损失方面取得了可比的性能,参数数量减少了约30%,并保持了稳定的长上下文困惑度。 AI
影响 引入了一种新的注意力机制,可能导致更具参数效率和更快的语言模型。
排序理由 该集群包含一篇详细介绍新颖语言模型架构的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →