WikiText-103 · PulseAugur

新的tPC-RTRL方法学习循环系统中的长距离依赖

研究人员开发了一种名为时间预测编码结合实时循环学习（tPC-RTRL）的新方法，以增强循环神经网络的学习能力。该方法通过引入一个考虑长距离时间依赖的在线影响矩阵，克服了标准时间预测编码的局限性，而长距离时间依赖对于需要长时间信用分配的任务至关重要。研究表明，tPC-RTRL方法能够精确复制反向传播随时间反向传播的梯度，并在包括语言建模和翻译在内的各种基准测试中展现出近乎等效的性能，同时还为实时应用中的学习和过滤提供了一个统一的框架。

TOOL · CL_98119 · Jun 18 · 04:00

高斯混合注意力提供线性时间序列混合

研究人员引入了高斯混合注意力（GMA），这是一种新颖的序列混合技术，旨在克服标准Transformer注意力的二次扩展瓶颈。GMA用通过学习到的高斯混合分量的概率路由机制取代了显式的token到token比较，将内存复杂度从O(N^2)降低到O(NK)，其中K是固定的。虽然GMA在长上下文分类任务上表现出竞争力，并在因果设置中显示出潜力，但它在特定基准测试中目前落后于优化的softmax注意力和Mamba等状态空间模型。

TOOL · CL_93842 · Jun 16 · 04:00

新的IGLU激活函数提供了改进的梯度流

研究人员推出IGLU，一种新颖的深度神经网络参数化激活函数，旨在改善梯度流和优化稳定性。IGLU源自半正态分布下GELU门的混合体，通过单个参数在类似恒等和类似ReLU的行为之间提供连续插值。其重尾柯西门确保所有有限输入的梯度非零，增强了对梯度消失的鲁棒性。一种高效的近似方法IGLU-Approx仅使用ReLU运算，在保持视觉和语言数据集上具有竞争力的性能的同时，降低了计算成本。

TOOL · CL_93350 · Jun 16 · 04:00

新型混合架构提升长上下文语言模型效率

研究人员引入了一种并行混合架构（PHA），它结合了门控状态空间（GSS）、分组查询注意力（GQA）和前馈网络（FFNs），以改进长上下文语言建模。该架构并行运行这些组件，允许每个组件专注于序列建模的不同方面，这与之前迫使SSM近似注意力或串行化这两种范例的方法不同。PHA在困惑度方面与标准Transformer具有竞争力，同时在吞吐量和内存使用方面提供了显著更高的效率，尤其是在长上下文方面。

RESEARCH · CL_90780 · Jun 12 · 02:48

新的RAG和长上下文模型利用知识图谱

两篇新的研究论文介绍了改进检索增强生成（RAG）和长上下文语言模型的先进方法。第一篇论文《用于上下文感知和关系感知的图检索增强生成的统一框架》（HyGRAG）提出了一个分层图RAG框架，该框架整合了上下文和关系信息，以在不同抽象级别上实现更有效的知识融合和检索。第二篇论文《用于长上下文建模的知识图增强记忆增强检索》（KGERMAR）提出了一个在推理过程中构建动态、上下文特定的知识图谱的框架，以增强对长上下文模型中实体状态和关系的理解，…

TOOL · CL_87135 · Jun 11 · 04:54

LongSpike：新的SNN框架增强长序列学习能力

研究人员推出了一种新的脉冲神经网络（SNN）框架LongSpike，该框架利用分数阶状态空间模型（f-SSM）来增强长序列的学习能力。这种方法克服了传统一阶SNN在捕捉长距离依赖关系方面的局限性。LongSpike能够更有效地将神经元动力学与长记忆核相结合，并支持高效的并行训练。在Long Range Arena和WikiText-103等基准测试上的评估表明，LongSpike在保持计算效率的同时，实现了比现有SNN更高的准确性。

RESEARCH · CL_79133 · Jun 6 · 00:00

Chiaroscuro Attention 通过动态令牌路由优化 Transformer 计算

研究人员开发了 CHIAR-Former，这是一种新颖的 4 层 Transformer 模型，通过动态路由令牌来优化计算使用。CHIAR-Former 不会统一应用自注意力，而是分析令牌的频谱熵，将每个令牌导向三个算子之一：DCT 频谱混合、RBF 核混合或全自注意力。这种方法在大型自然语言文本上显著提高了性能，在 WikiText-103 上实现了 45% 的困惑度改进，同时注意力 FLOPs 比标准 Transformer 减少…

RESEARCH · CL_53609 · May 26 · 16:36

Kan Extension Transformers 统一了注意力、扩散和自条件化

研究人员推出了一种名为 Kan Extension Transformers (KETs) 的新框架，该框架通过范畴论的视角统一了各种 Transformer 实现。KETs 将 Transformer 层视为加权的结构化扩展算子，涵盖了标准注意力、Geometric Transformers 和高阶单纯形情况。该框架还连接到扩散式补全，并通过作用于分离的预测载体来引入自条件机制，从而在不泄露未来 token 的情况下揭示非因果结构。…

TOOL · CL_51237 · May 26 · 04:00

后继表征揭示语言模型中涌现的词类结构

研究人员将强化学习中的一个原理——后继表征（SRs）——应用于自然语言处理。通过在WikiText-103上训练一个神经网络来预测不同时间跨度下的未来词语分布，他们观察到了结构化语言表征的自发涌现。这些表征表现出与词性类别相关的清晰几何组织，名词、动词和形容词可以通过无监督聚类进行分离。该研究表明，句法类别可能是预测性序列学习的自然结果，从而连接了强化学习、语言学和认知神经科学的概念。

RESEARCH · CL_21794 · May 7 · 15:23

新参数E可预测混合专家模型健康状况，防止专家失效。

研究人员引入了一个新的无量纲控制参数 E = T*H/(O+B)，用于预测混合专家（MoE）模型中专家生态系统的健康状况。该参数源自四个超参数，可以在无需手工设计的负载均衡损失的情况下防止“死专家”。在视觉和语言任务上的实验表明，E 值达到 0.5 或更高即可维持健康的专家生态系统，为 MoE 训练提供了一个统一的诊断工具。

TOOL · CL_18622 · May 6 · 04:00

新框架使用掩码语言模型实现高效无线令牌通信

研究人员开发了一种新颖的上下文感知无线令牌通信框架，该框架利用掩码语言模型（MLM）来提高传输效率。该系统通过将信道似然性与基于MLM的上下文先验相结合，实现了在噪声信道上进行鲁棒的令牌推断。发送器选择性地省略接收器可以可靠推断出的令牌，将功率集中在更具信息量的令牌上。仿真结果表明，与现有方法相比，在基准数据集上性能显著提升。

RESEARCH · CL_20402 · May 5 · 18:59

Jordan-RoPE: 通过复数约旦块实现的非半单相对位置编码

研究人员引入了 Jordan-RoPE，一种利用复数约旦块的 Transformer 模型新型相对位置编码方法。该方法生成振荡-多项式特征，实现了与 RoPE 和 ALiBi 等现有方法不同的距离调制相位基。虽然缩放精确变体在 WikiText-103 语言模型上比基线有所改进，但 RoPE+ALiBi 总体上仍然表现最强，表明 Jordan-RoPE 对特定任务具有结构优势。

RESEARCH · CL_15913 · May 5 · 04:00

研究人员探索 Transformer 模型的权重衰减、上下文学习和加速方法

研究人员开发了几种新方法来提高 Transformer 模型的效率和理论理解。一篇论文提供了权重衰减的功能分析表征，展示了其在塑造损失景观和提高泛化能力方面的作用。另一项研究调查了 Transformer 在上下文学习过程中如何适应不同的任务难度，证明了在分布变化下的最优收敛率。此外，两篇论文提出了加速 Transformer 推理的技术：一篇使用门控子空间推理来减少内存带宽，另一篇介绍了 LEAP，一个支持层级早期退出的预训练目标，…

RESEARCH · CL_08625 · Apr 29 · 04:00

Phase-Associative Memory: Sequence Modeling in Complex Hilbert Space

研究人员引入了一种新颖的复值序列模型，称为相位关联记忆（PAM），它利用希尔伯特空间形式主义来更好地捕捉语义表达含义的不确定性。虽然 PAM 的绝对损失高于其实值对应物，但它随着参数数量的增加表现出更快的改进。这表明 PAM 式架构有可能以显著更少的参数实现最先进的语言模型功能，使其在消费级硬件上可行。

RESEARCH · CL_06744 · Apr 28 · 04:00

AutoCompress 方法隔离关键 Transformer 层以实现高效压缩

研究人员开发了 AutoCompress，一种通过隔离和保留关键的第一层（第 0 层）来压缩 Transformer 模型的新颖方法。这种称为关键层隔离（CLI）的方法表明，在较小的 Transformer 中，第 0 层比其他层包含更多与任务相关的关键信息。当应用于 GPT-2 Medium 时，CLI 实现了 2.47 倍的压缩比，参数减少了 59.5%，同时在 WikiText-103 基准测试中保持了强劲的性能。