Softmax · PulseAugur

新AEGIS框架增强视觉传感器中的对抗性检测

研究人员开发了AEGIS，一个旨在增强视觉传感器网络中对抗性检测鲁棒性的新框架。该系统集成了SemantiGAN模块，用于对不一致的输入进行语义区分，以及一个利用Dirichlet分布的Evidential Deep Learning分类器，该分类器在预测的同时提供校准的不确定性估计。在Tiny ImageNet数据集上的评估表明，AEGIS在检测各种对抗性攻击方面表现出色，取得了高AUROC、AUPRC和准确率分数。

RESEARCH · CL_117264 · Jun 29 · 15:14

形式证明显示 Transformer 可以执行精确的贝叶斯推理

一篇新论文正式证明了 Transformer 架构可以作为完整的贝叶斯过程运行。该研究在测度论核框架内进行，表明当 Transformer 满足特定的贝叶斯联合分布条件时，其内部计算等同于精确的贝叶斯后验推理。这种等价性从核心的贝叶斯 Transformer 到完整的多层堆栈都成立，其中 Softmax 注意力机制被特别证明可以诱导一个有效的概率分布。

TOOL · CL_110824 · Jun 25 · 18:01

Softmax 函数的 150 年历程：从物理学到大型语言模型

Softmax 函数是大型语言模型等现代人工智能系统的核心组成部分，其历史跨越 150 年，起源于不同的科学领域。最初由物理学家 Ludwig Boltzmann 于 1868 年开发，旨在通过最大熵原理解释气体分子的行为，后来相同的数学形式独立出现。它被一位模拟人类选择的心理学家重新发现，随后又被一位试图从神经网络得分中产生有效概率的工程师重新发现。这种汇聚突显了一个超越学科界限的基本数学原理。

RESEARCH · CL_111633 · Jun 25 · 17:59

去噪注意力（DnA）提升视觉任务性能

研究人员推出了一种名为去噪注意力（DnA）的新方法，旨在提高基于注意力模型的视觉任务性能。DnA通过使用正负查询分别识别相关和不相关的图像特征，解决了标准softmax激活产生的噪声注意力模式问题。该方法将交互投影到不同的子空间，增强了特征的可辨别性。当应用于Vision Transformer Base (ViT-B)骨干网络时，DnA在ImageNet-1K上实现了0.8%的绝对增益，并在视频理解任务（包括视频Transforme…

RESEARCH · CL_109591 · Jun 23 · 17:46

论文认为神经缩放定律由固定指数决定

一篇新的立场论文提出，神经缩放定律（描述预训练损失如何随着训练时间、模型大小和计算量而降低）是由固定指数决定的。这些指数归因于通用机制，如Softmax的非线性、表示叠加以及Transformer层中的集成平均。该论文认为，虽然指数是普适的，但系数对数据和架构敏感，理解这些系数对于近期性能提升和识别改进普适性类别至关重要。

TOOL · CL_105609 · Jun 23 · 11:27

通过分步数值分析解释大型语言模型（LLM）的注意力机制

本文深入探讨了像GPT这样的大型语言模型（LLM）处理语言的数学基础，重点关注注意力机制。文章通过追踪数字在矩阵乘法、Q·K点积和Softmax函数中的传递过程，揭示了这一过程的奥秘。作者强调，LLM并非从概念上理解词语，而是从训练过程中学到的数值关系和模式中推导出含义，并用一个包含小型语料库的具体示例来说明注意力分数是如何计算的以及词元嵌入是如何被转换的。

TOOL · CL_106808 · Jun 22 · 12:21

交叉熵训练下 Transformer 层的均场控制分析

研究人员使用连续深度均场控制的视角，在交叉熵训练框架内分析了 Transformer 层。他们将深度视为时间，将层参数视为控制，将 Transformer 递归建模为受控隐藏状态流的显式欧拉方案。该研究为极限种群问题推导了庞特里亚金条件，其中终端伴随项包含 softmax 残差，并为有限类和度量熵场景提供了估计。

RESEARCH · CL_100090 · Jun 19 · 04:00

新研究深入探讨 Transformer 的能耗、学到的线性以及训练动态

近期研究探索了 Transformer 模型的复杂性，重点关注其能耗、内部线性特性和训练动态。其中一篇论文引入了一个缩放模型，用于预测微调期间的能耗，该模型受 Roofline 模型启发，并考虑了并行效应。另一项研究调查了 Transformer 前馈块的线性，揭示了这种特性是学到的而非架构性的，并且在不同层之间存在显著差异。第三篇论文通过连续深度均场控制的视角分析了 Transformer 层，将交叉熵训练与最优控制问题联系起来。此…

TOOL · CL_96153 · Jun 17 · 04:00

新型 MIVE 引擎加速大语言模型归一化操作

研究人员开发了一种名为 MIVE（Minimalist Integer Vector Engine，极简整数向量引擎）的新硬件架构，旨在加速大语言模型（LLMs）中的关键操作。MIVE 是一种可编程引擎，可以在单个数据通路中高效处理 Softmax、LayerNorm 和 RMSNorm 功能，从而减少对重复硬件资源的需求。ASIC 实现表明，与现有针对这些操作的独立加速器相比，MIVE 在面积和硬件效率方面均有所提高。

RESEARCH · CL_93108 · Jun 15 · 00:00

新研究探索用于大型语言模型的混合和稀疏注意力机制

研究人员正在探索优化大型语言模型中注意力机制的新方法，特别是用于处理长上下文。例如，HydraHead架构沿头轴混合了全注意力（FA）和线性注意力（LA），识别关键的FA头并协调分布差异。另外，StreamKL提供了一种快速且内存高效的方法来计算注意力蒸馏的Kullback-Leibler散度，减少了HBM占用空间，并支持在单个GPU上进行长上下文蒸馏。其他研究包括基于域分解的分层注意力和距离自适应表示，后者为远距离标记分配较低的维度…

COMMENTARY · CL_86463 · Jun 12 · 01:12

LLM 采样参数详解：Temperature、Top-P、Top-K 和 Min-P

本文解释了如何有效调整大型语言模型（LLM）中使用的采样参数，以实现期望的输出特性。文章详细介绍了四种常用参数：temperature、top-p、top-k 和 min-p，并解释了每个参数如何修改 token 生成的概率分布。该帖子旨在帮助开发者为其特定用例选择合适的参数，超越可能不适合生产环境的默认设置。

RESEARCH · CL_84354 · Jun 10 · 13:28

振荡器网络模仿Transformer注意力机制以实现能效

研究人员开发了一种新颖的方法，使用同步耦合振荡器来实现Transformer注意力机制，为能源受限的物理硬件提供了潜在的解决方案。这种“振荡器注意力”用Kuramoto同步动力学取代了计算成本高昂的softmax操作，在关键词识别和主谓一致等任务上取得了具有竞争力或更优的性能。虽然在因果语言建模方面仍有差距，但随着振荡器维度的增加，性能有所提高，为在物理基底上进行高效注意力计算提供了蓝图。

TOOL · CL_80838 · Jun 9 · 12:19

文章认为神经网络需要非线性来处理复杂性

文章探讨了神经网络中非线性的必要性，认为它对于处理现实世界数据的复杂、非直线性质至关重要。文章提出，像Softmax这样的激活函数对于引入这种非线性至关重要，使模型能够学习复杂的模式并做出复杂的决策。

TOOL · CL_80118 · Jun 9 · 04:00

新的SDM激活函数增强了LLM的可解释性和鲁棒性

研究人员引入了一种名为相似性-距离-幅度（SDM）的新激活函数。该函数旨在通过引入对相似性的感知来纠正预测、与训练分布的距离以及现有输出幅度，从而改进标准的softmax。基于此激活函数的SDM估计器旨在提高可解释性，并增强对分布变化的鲁棒性，特别是在预训练语言模型的选择性分类任务中。

RESEARCH · CL_62644 · May 29 · 18:47

AI论文探讨softmax函数的统计和几何极限

两篇新的arXiv论文探讨了softmax函数（许多AI模型中的核心组件）的统计和几何特性。第一篇论文《当Softmax在顶层失效时》（When Softmax Fails at the Top）介绍了WEINCE，这是一种对比学习目标的修改，通过解决统计失准问题来提高在视觉基准上的性能。第二篇论文《Softmax的信息几何学》（The Information Geometry of Softmax）深入探讨了AI系统如何在表示空间中…

TOOL · CL_58690 · May 29 · 04:00

新模型解释软体专家混合路由器中的负载不平衡

研究人员开发了一个最小动力学模型，用于理解软体专家（MoE）层自适应softmax路由中的负载不平衡。该模型源自一个强化学习规则，当反馈强度超过临界值时，会表现出一种叉式分岔，即一个稳定的平衡状态转变为两个不对称状态。进一步分析表明，当引入外部不对称性时，在控制参数平面中会出现一个尖点灾变，并提供了该现象的确切参数方程。数值实验和分类任务上的小型MoE模型支持了这些发现，为MoE路由器中突发的负载不平衡提供了一种低维机制。

TOOL · CL_44684 · May 22 · 04:00

新框架使脉冲神经网络可用于大型语言模型

研究人员开发了一个新框架，使大型语言模型更能兼容神经形态硬件。该方法侧重于为Transformer中的非线性算子创建对脉冲友好的近似，这些算子通常对标准的脉冲神经元动力学具有挑战性。通过将这些非线性分解为重复的基本单元，并使用神经元群体的计算，该框架可以在最小的精度损失下近似Softmax和SiLU等常见非线性。

COMMENTARY · CL_32272 · May 14 · 22:04

Oracle Japan：SaaS供应商必须在2026年前实现AI原生化，否则将面临淘汰

Oracle Japan 敦促软件即服务（SaaS）供应商在2026年前采用AI原生架构，以避免被淘汰。该公司已推出一项‘任务关键型AI’框架，并与合作伙伴WingArc1st、NSW和Softmax共同开发，以指导这一转型。该战略旨在帮助SaaS公司应对日益商品化的AI，并确保它们在不断发展的企业技术格局中生存下来。

TOOL · CL_30957 · May 14 · 04:00

新的'catnat'函数在深度学习效率上优于softmax

研究人员引入了一个名为'catnat'的新函数，作为深度学习中处理分类变量的标准softmax函数的替代方案。该新函数源自信息几何学，由于其Fisher信息矩阵是对角的，因此提供了改进的梯度下降效率。在图学习、VAEs和强化学习等各种任务上的实验表明，与softmax相比，'catnat'能够带来更高的学习效率和测试性能。

TOOL · CL_21964 · May 8 · 04:00

研究人员开发了用于高效多类别交叉熵的快速高斯-牛顿法

研究人员开发了一种快速高斯-牛顿（FGN）方法来近似多类别交叉熵的广义高斯-牛顿（GGN）曲率。这种新方法将标准的GGN分解为一个真值与其余项和一个正半定竞争者内部协方差项，并舍弃后者以创建一种高效的低估近似。FGN方法对于二元分类是精确的，并且可以使用无矩阵共轭梯度方法高效求解，有望扩大训练规模。