Softmax
PulseAugur coverage of Softmax — every cluster mentioning Softmax across labs, papers, and developer communities, ranked by signal.
2 天有情绪数据
-
新框架使脉冲神经网络可用于大型语言模型
研究人员开发了一个新框架,使大型语言模型更能兼容神经形态硬件。该方法侧重于为Transformer中的非线性算子创建对脉冲友好的近似,这些算子通常对标准的脉冲神经元动力学具有挑战性。通过将这些非线性分解为重复的基本单元,并使用神经元群体的计算,该框架可以在最小的精度损失下近似Softmax和SiLU等常见非线性。
-
Oracle Japan:SaaS供应商必须在2026年前实现AI原生化,否则将面临淘汰
Oracle Japan 敦促软件即服务(SaaS)供应商在2026年前采用AI原生架构,以避免被淘汰。该公司已推出一项‘任务关键型AI’框架,并与合作伙伴WingArc1st、NSW和Softmax共同开发,以指导这一转型。该战略旨在帮助SaaS公司应对日益商品化的AI,并确保它们在不断发展的企业技术格局中生存下来。
-
新的'catnat'函数在深度学习效率上优于softmax
研究人员引入了一个名为'catnat'的新函数,作为深度学习中处理分类变量的标准softmax函数的替代方案。该新函数源自信息几何学,由于其Fisher信息矩阵是对角的,因此提供了改进的梯度下降效率。在图学习、VAEs和强化学习等各种任务上的实验表明,与softmax相比,'catnat'能够带来更高的学习效率和测试性能。
-
研究人员开发了用于高效多类别交叉熵的快速高斯-牛顿法
研究人员开发了一种快速高斯-牛顿(FGN)方法来近似多类别交叉熵的广义高斯-牛顿(GGN)曲率。这种新方法将标准的GGN分解为一个真值与其余项和一个正半定竞争者内部协方差项,并舍弃后者以创建一种高效的低估近似。FGN方法对于二元分类是精确的,并且可以使用无矩阵共轭梯度方法高效求解,有望扩大训练规模。
-
Neural networks achieve super-fast convergence and represent complex functions with floating-point arithmetic
Two new arXiv papers explore theoretical aspects of neural network convergence and representation capabilities. The first paper demonstrates that neural network classifiers can achieve super-fast convergence rates under…
-
新论文从单一KL恒等式推导出指数族结果
研究人员发现了一个指数族的基本恒等式,指数族是现代机器学习技术(如softmax和高斯分布)的关键分布。该恒等式简化了变分推断和强化学习中几个关键结果的推导,包括勾股定理和吉布斯变分原理。这些研究结果在一个独立的笔记中提出,为理解这些复杂的数学概念提供了一种更简化的方法。
-
新的硬件设计为边缘AI提供高效的Softmax和LayerNorm
研究人员开发了用于Transformer模型在边缘设备上运行的、硬件高效的Softmax和Layer Normalization的近似方法。这些方法确保了保证归一化,这对于边缘NLP和生成式AI应用中以得分为导向的任务至关重要。所提出的架构采用Verilog HDL实现,并在28nm CMOS工艺上合成,与现有解决方案相比,其精度下降极小,面积也显著减小。
-
超越注意力投影的线性:非线性查询的论证
研究人员正在探索 Transformer 注意力机制背后的基本原理,新论文分析了其梯度流结构和动态。一项研究将注意力解释为单位球面上的梯度流,识别影响多头设置中 token 聚类和稳定性的因素。另一篇论文研究了用于复杂性控制的关键训练窗口,确定 Transformer 何时优先考虑推理而非记忆。此外,研究还揭示了深度神经网络中几何连续性的起源,将其归因于残差连接和对称性破坏的非线性,并考察了“注意力汇聚”现象的结构原因。
-
新框架通过分离层优化深度学习训练
研究人员引入了一个名为层分离优化(Layer Separation Optimization)的新颖框架,以解决深度学习模型使用交叉熵损失进行训练时面临的挑战。该方法旨在缓解深度网络训练过程中出现的强非凸性问题。通过使用辅助变量将复杂的优化问题分解为更小、更易于管理子问题,该框架在理论上为原始交叉熵损失提供了上限,并在数值实验中展示了改进的优化行为。