PulseAugur
实时 05:12:59
实体 transformers

transformers

PulseAugur coverage of transformers — every cluster mentioning transformers across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
111
90 天内 111
发布 · 30天
0
90 天内 0
论文 · 30天
79
90 天内 79
层级分布 · 90 天
关系
时间线
  1. 2026-05-13 research_milestone A paper was published analyzing the impact of data representation and tokenization on Transformer context effectiveness. 来源
情绪 · 30 天

16 天有情绪数据

最近 · 第 1/6 页 · 共 111 条
  1. TOOL · CL_48970 ·

    NextLat Transformers 学习紧凑的世界模型以实现更好的泛化

    研究人员开发了一种名为 Next-Latent Prediction (NextLat) 的新训练方法,用于 transformer 模型,鼓励它们构建更紧凑的内部世界模型。该方法在标准的下一个 token 预测基础上增加了一个自监督目标,训练 transformer 根据当前 token 预测其未来的潜在状态。该方法在包括语言建模在内的各种基准测试中,在准确性、表示压缩和规划方面都显示出实证收益,并且还能加速推理。

  2. TOOL · CL_48893 ·

    Certification Hard for Transformers and Circuits

    一篇新的研究论文探讨了验证神经网络(尤其是 Transformers 和电路)精确行为的难度,即使在参数过剩极少的情况下也是如此。研究表明,即使给阈值电路增加一个额外的门,也可能使所需的验证证书大小呈指数级增长。对于对数精度 Transformers 也显示出类似的硬度结果,这表明为这些模型提供精确性保证是一个计算上具有挑战性的问题。

  3. TOOL · CL_48721 ·

    Tensor Cache 增强 Transformer 长上下文记忆

    研究人员开发了一种名为 Tensor Cache 的新型 Transformer 记忆系统,旨在增强其处理长上下文的能力。该系统结合了滑动窗口缓存和第二级快速权重记忆,后者用于存储被驱逐的 token。通过高效地压缩和召回被驱逐的 KV 对,Tensor Cache 旨在改善长上下文语言建模和其他应用中内存使用与模型质量之间的权衡。

  4. TOOL · CL_45371 ·

    通过优化 KV 缓存和量化来修复本地 LLM OOM 错误

    即使模型的权重似乎适合可用 VRAM,在本地运行大型开源语言模型也可能导致内存不足错误。这主要是由于 KV 缓存(其大小随上下文长度而变化)和推理过程中的中间激活内存需要大量内存。开发人员可以通过使用 PyTorch 的内存快照等工具分析内存使用情况、对模型权重和 KV 缓存应用适当的量化技术以及管理内存碎片来解决这些问题。

  5. TOOL · CL_43454 ·

    新的 CODA 论文将 Transformer 重构为数学问题

    一篇新的研究论文介绍了 CODA,一种新颖的 Transformer 方法,它将它们重构为数学问题。该方法旨在可能彻底改变神经网络的架构。该论文可在 arXiv 上找到。

  6. RESEARCH · CL_48751 ·

    新的 FastKernels 基准测试针对 LLM 的 GPU 核生成

    研究人员推出了 FastKernels,这是一个新的基准测试,旨在更好地评估生产 LLM 推理中使用的 GPU 核生成代理。现有的基准测试与实际系统不匹配,导致代理生成的核在测试环境之外表现不佳。FastKernels 旨在通过作为一个生产级推理框架来弥合这一差距,该框架反映了实际部署需求,并涵盖了绝大多数 HuggingFace Transformers 架构。

  7. TOOL · CL_44898 ·

    新论文发现Transformer在基于状态的搜索决策中存在困难

    研究人员发现了一个关键限制,即Transformer模型在回溯搜索中处理序列化轨迹数据的方式。这些模型在“分散检索”(状态特征分散在多个位置)和“历史纠缠”(模型依赖于轨迹而非当前状态)方面可能存在困难。为解决此问题,他们提出了选择性状态注意力(SSA),这是一种对注意力掩码的结构性修复,可以在不改变训练数据或参数的情况下强制执行基于状态的决策。在3-SAT和图着色等任务上的实验表明,与标准的因果基线模型相比,SSA能够使Transf…

  8. TOOL · CL_44709 ·

    LLM预训练为时间序列预测创造了可泛化的流形

    一篇新的研究论文探讨了如何在时间序列预测中有效利用在文本上预训练的大型语言模型(LLM)。该研究表明,语言预训练为Transformer配备了一个可重用的流形,使其能够在无直接监督的情况下学习时间序列动力学。这种预训练不仅改进了优化过程,还允许在微调期间进行低维对齐,有效地将数值动力学投影到与任务相关的方向上。

  9. RESEARCH · CL_44050 ·

    论文揭示了用于 Transformer 的图标记化的权衡及其对模型表达能力的影响

    一篇新论文探讨了图标记化在将 Transformer 应用于图学习任务中的关键作用。研究人员证明,将图结构转换为标记的方法会显著影响 Transformer 的表达能力以及计算所需的深度。研究表明,某些标记化方法(如随机游走)本质上是有损的,而另一些方法(如谱标记化)可能不适合特定任务。研究结果表明,结合互补的标记化策略可以增强 Transformer 利用多样化结构信号的能力,从而提高性能。

  10. SIGNIFICANT · CL_49676 ·

    OpenBMB发布MiniCPM5-1B用于设备端AI任务

    OpenBMB发布了MiniCPM5-1B,这是一个拥有10亿参数的Transformer模型,专为设备端和资源受限环境设计。该模型在其尺寸级别中声称拥有最先进的性能,尤其在代理工具使用、代码生成和复杂推理方面表现出色。发布内容包括部署和微调的资源,以及一个由该模型驱动的“桌面宠物”应用程序。

  11. RESEARCH · CL_42474 ·

    Deformba method enhances State Space Models for vision tasks

    Researchers have introduced Deformba, a novel context-adaptive method designed to enhance the application of State Space Models (SSMs) to vision tasks. Deformba addresses limitations in existing vision SSMs by dynamical…

  12. SIGNIFICANT · CL_44550 ·

    Cohere releases open-source Command A+ AI model for enterprise agents

    Cohere has released Command A+, an open-source, multimodal AI model designed for enterprise use and agentic tasks. This new model integrates reasoning, vision, and multilingual capabilities, supporting 48 languages and …

  13. TOOL · CL_41851 ·

    New HORST optimizer enhances sparse transformer training

    Researchers have developed HORST, a novel optimizer designed to improve the training of sparse transformers. Standard optimizers struggle to balance the need for sparsity with training stability. HORST addresses this by…

  14. RESEARCH · CL_41758 ·

    New theory explains transformer generalization via Fourier Spectra

    Researchers have developed a new theoretical framework to understand how transformers generalize, focusing on the Fourier Spectra of their target functions. This approach utilizes PAC-Bayes theory to derive generalizati…

  15. TOOL · CL_41916 ·

    新的U-Net模型为边缘设备提供高效的脊柱CT分割

    研究人员开发了SpineContextResUNet,一种新颖的3D残差U-Net架构,旨在高效分割脊柱CT扫描。该模型通过使用具有并行多扩张卷积的轻量级上下文块,避免了资源密集型的Transformer或RNN的需要,从而解决了现有方法的高计算需求。SpineContextResUNet在公开基准测试中实现了高精度,并在商品硬件上展示了可行的推理性能,使其适用于即时诊断和边缘设备。

  16. TOOL · CL_40005 ·

    Transformers achieve optimal in-context learning for regression

    Researchers have developed a method for in-context learning in nonparametric regression using transformers. Their findings indicate that transformers can achieve minimax optimal convergence rates with significantly fewe…

  17. RESEARCH · CL_44706 ·

    权重衰减控制 Transformer 训练机制,揭示新的诊断方法

    研究人员发现,在模块化算术任务上,权重衰减是控制 Transformer 训练机制的关键参数。他们引入了两种新的、低成本的在线诊断方法——平均成对注意力头余弦相似度和熵标准差——以监测注意力激活的训练动态。这些诊断方法应用于各种实验条件和模型规模,能有效区分记忆、泛化(grokking)和崩溃,并确定了记忆到发展的边界的具体过渡点。

  18. TOOL · CL_40775 ·

    新理论使用最优输运分析LLM推理极限

    研究人员开发了一个理论框架,使用最优输运来分析大型语言模型(LLM)的推理和分布外泛化能力。他们的方法用Wasserstein-1距离量化域偏移,并确定了两个关键限制:依赖位置的注意力机制阻碍了移位不变性,而Transformer中的顺序回溯对电路深度施加了下限。在组合搜索任务上的评估证实,泛化风险随域偏移的增加而增加,凸显了物理层深度缩放的必要性。

  19. TOOL · CL_37214 ·

    PaddleOCR 3.5 adds Transformers backend for easier AI integration

    PaddleOCR 3.5 has been released, integrating the Transformers library as a new backend option for its OCR and document parsing models. This update allows developers to more seamlessly incorporate PaddleOCR's capabilitie…

  20. RESEARCH · CL_38194 ·

    新数学框架解释 Transformer 训练动力学

    一篇新论文引入了一个数学框架,用于理解 Transformer 的训练过程,特别是在深度和宽度都趋于无穷大的均值场状态下。与可以用常微分方程(ODEs)建模的 ResNets 不同,由于注意力机制的 token 耦合,Transformer 的训练由偏微分方程(PDEs)描述。该研究确立了神经切线核(Neural Tangent Kernel)可注入的条件,这保证了梯度流收敛到全局最小值,从而消除了伪局部最小值。