实体 multi-head attention

multi-head attention

PulseAugur coverage of multi-head attention — every cluster mentioning multi-head attention across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 8

发布 · 30天

90 天内 0

论文 · 30天

90 天内 8

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 8 条

TOOL · CL_100203 · Jun 19 · 04:00

新框架统一分析深度Transformer动力学

研究人员开发了一个新颖的框架来分析深度Transformer内部的复杂动力学，Transformer是许多机器学习任务的基础。通过将输入序列的演化建模为Vlasov方程，称为Transformer PDE，他们可以更好地理解注意力机制如何在层之间运作。该方法已推广到各种注意力变体，包括多头注意力、L2注意力、Sinkhorn注意力、Sigmoid注意力和掩码注意力，利用条件Wasserstein框架。该研究还独特地探索了非紧支撑的初始…
RESEARCH · CL_103889 · Jun 18 · 00:00

HydraHead架构融合了多种注意力类型，以改进长上下文LLM

研究人员推出了一种新颖的HydraHead架构，该架构在Transformer模型内部的头级别上混合了全注意力（Full Attention）和线性注意力（Linear Attention）。该方法利用可解释性来识别全注意力的关键头，同时使用尺度归一化融合模块来整合两种注意力类型的输出。该方法旨在以更低的训练开销来提高长上下文性能，即使在有限的训练数据下也能取得显著的收益，并接近Qwen 3.5等更大模型的性能。
RESEARCH · CL_93581 · Jun 15 · 07:16

新的QK-Normed MLA方法在无需完全缓存键的情况下稳定LLM注意力

研究人员开发了QK-Normed MLA，一种无需完全缓存键即可稳定大型语言模型中注意力机制的方法。该技术通过分解RMSNorm并将静态权重吸收到现有投影中，将QK归一化集成到多头潜在注意力（MLA）中。与QK剪枝相比，该方法在保持MLA高效解码的同时，实现了更低的训练损失和更高的下游准确性，并且在Nvidia H800硬件上具有最小的延迟开销。
RESEARCH · CL_72610 · Jun 4 · 10:44

深度学习从2D图像重建3D口腔模型

研究人员开发了一种新颖的深度学习方法，仅使用2D口内图像即可重建口腔的3D模型。该方法旨在降低传统牙科建模技术（如印模采集和昂贵的口内扫描仪）的成本和患者不适感。该模型在Dental3DS数据集上进行训练，利用MobileNetV2和多头注意力机制实现了77.49%的准确率，但指出重建中的点分布不均。
TOOL · CL_55488 · May 27 · 23:10

大语言模型深度解析：理解Transformer中的多头注意力机制

本文深入探讨了多头注意力机制，这是Transformer架构和大语言模型（LLMs）的核心组成部分。文章解释了该机制如何通过关注不同的表示子空间并捕捉长距离依赖关系，使模型能够处理序列数据。文章详细介绍了自注意力机制的数学基础及其扩展到多头注意力的过程，强调了其并行性和大规模计算的效率。
RESEARCH · CL_45905 · May 23 · 13:14

新的MLA注意力机制将LLM KV缓存削减高达10倍

多头潜在注意力（MLA）是一种新颖的注意力机制，旨在显著压缩大型语言模型的KV缓存。通过将KV对投影到低维潜在空间，MLA实现了大量的缓存缩减，使DeepSeek-V2/V3和Kimi K2.x等模型能够以更少的内存处理更长的上下文和更大的批次。该技术改变了前缀缓存和注意力计算的实现方式，在模型推理过程中提供了内存使用和计算成本之间更有效的权衡。
RESEARCH · CL_41744 · May 18 · 23:43

新理论将多头注意力机制视为集成回归

研究人员开发了一种统计理论，将多头注意力（MHA）视为一系列Nadaraya-Watson核回归估计器的集成。该框架揭示了MHA中的方差减少与不同注意力头输出的去相关性密切相关，而不仅仅是头的数量。他们引入了头多样性指数（HDI）来衡量这种去相关性，并推导出了最优的头维度分配策略，提出了一个新的架构扩展定律，其中最优的每个头维度随训练集大小呈对数增长。
TOOL · CL_26966 · May 6 · 18:31

数据中心SLA监控利用AI提前30分钟预测违规

研究人员开发了一个新的框架，使用多头Transformer模型主动监控数据中心服务水平协议（SLA）。该系统将SLA规则编码为结构化数据，使模型能够提前30分钟预测潜在的违规行为。然后，这些预测结果将以专门的视图呈现给财务、运营和合规团队，从而实现及时干预并减少财务处罚。

新框架统一分析深度Transformer动力学

HydraHead架构融合了多种注意力类型，以改进长上下文LLM

新的QK-Normed MLA方法在无需完全缓存键的情况下稳定LLM注意力

深度学习从2D图像重建3D口腔模型

大语言模型深度解析：理解Transformer中的多头注意力机制

新的MLA注意力机制将LLM KV缓存削减高达10倍

新理论将多头注意力机制视为集成回归

数据中心SLA监控利用AI提前30分钟预测违规