Mount Holyoke College
PulseAugur coverage of Mount Holyoke College — every cluster mentioning Mount Holyoke College across labs, papers, and developer communities, ranked by signal.
2 天有情绪数据
-
人工智能技术探索:记忆、推理、微调与Token
一篇博文综合了当前和新兴的人工智能技术,重点关注记忆、推理、微调和Token化。文章强调了诸如Manifold-Constrained Hyper-Connections (mHC) 等进展以及既有方法。文章引用了包括The Turing Post在内的各种来源,以提供对人工智能格局的全面概述。
-
DeRes架构通过双残差路径改进CTR预测
研究人员推出了一种新颖的Transformer基础CTR预测模型架构DeRes,它解耦了残差稳定性和自适应性。这种新设计采用了并行的恒等映射和注意力块残差路径,能够更好地保留早期信号并更有效地回忆长距离依赖关系。DeRes在大规模数据集上表现出卓越的性能,在计算成本仅略微增加的情况下超越了现有模型,并提供了显著更陡峭的计算-AUC缩放定律。
-
DeepSeek V4 引入流形约束超连接
DeepSeek V4 是一个先进的语言模型,建立在其前身 DeepSeek V3 的基础上。V4 架构引入了压缩稀疏注意力(CSA)、重度压缩注意力(HCA)和流形约束超连接(mHC)等新组件。本文重点解释 mHC,这是一种通过采用多个并行残差流来增强神经网络中传统残差连接的技术,从而实现更结构化和稳定的训练。
-
新的mHC架构改变了AI模型中注意力头的行为
研究人员调查了流形约束超连接(mHC)这一在Deepseek v4中实现的新型架构对模型可解释性的影响。实验显示,mHC模型中的先前标记注意力头表现出不同的行为,出现在更早的层中,并与高峰度分数相关,这与在标准模型中通过对角条纹分数可检测到的情况不同。研究还观察到,mHC-lite模型倾向于在其残差流中输出多样化的标记,而mHC模型在标记预测方面表现出更强的统一性。