实体 transformer

transformer

PulseAugur coverage of transformer — every cluster mentioning transformer across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

258

90 天内 258

发布 · 30天

90 天内 0

论文 · 30天

244

90 天内 244

层级分布 · 90 天

frontier release 2
significant 2
research 94
tool 148
commentary 11
meme 1

关系

developed by Noam Shazeer 100%
developed by Google Brain 100%
instance of Nemotron 3 Nano Omni 95%
instance of My Little Pony: Friendship Is Magic 90%
uses CNN 90%
used by Rope 90%
instance of Attention Is All You Need 90%
used by few-shot learning 90%
authored by Attention Is All You Need 90%
uses Rope 90%
uses softmax attention 80%
used by softmax attention 80%

时间线

2026-05-25 research_milestone A new Transformer-based architecture achieved high accuracy in real-time earthquake magnitude classification. 来源
2026-05-19 research_milestone A new paper details the discovery of a geometric mechanism for Bayesian inference within transformer architectures. 来源
2026-05-08 research_milestone Researchers published a paper establishing approximation error bounds for Transformers on the Hölder class. 来源

情绪 · 30 天

17 天有情绪数据

最近 · 第 2/10 页 · 共 200 条

TOOL · CL_44945 · May 22 · 04:00

机器人适应框架 CoRMA 使用语义上下文进行装配

研究人员开发了 CoRMA，一个新颖的机器人运动适应框架，专为力主导的装配任务而设计。该系统利用紧凑的 6D 语义接触上下文，通过因果 Transformer 适配器从传感器数据中在线推断。CoRMA 能够在无需演示或梯度更新的情况下实现单集适应，在钉子插入和齿轮啮合等任务上，与现有方法相比，显示出更高的实际成功率。
TOOL · CL_44923 · May 22 · 04:00

新的内存分页技术提高了混合式大语言模型推理效率

研究人员开发了一种名为非对称虚拟内存分页（AVMP）的新内存管理技术，以提高混合式语言模型的效率。这些模型结合了Transformer层和状态空间模型（SSM），导致存在当前系统处理不佳的独特内存缓存类型。AVMP将这些缓存类型分离到不同的池中，并在需要时允许它们之间的容量迁移，从而减少内存不足事件并显著提高请求吞吐量。
TOOL · CL_44900 · May 22 · 04:00

Transformer输出多样性由架构预测

研究人员开发了一种方法，可以根据Transformer模型的架构预测其能产生的独特序列数量。该分析为Transformer有时在简单的序列任务中失败提供了理论解释。研究结果表明，可访问序列的长度随提示长度线性增长，但这些序列的比例随序列长度呈指数级衰减。
TOOL · CL_44870 · May 22 · 04:00

BlockFormer 使用 Transformer 从交互图中推断基因组位置

研究人员开发了 BlockFormer，一种新颖的基于 Transformer 的架构，用于从交互图中推断参数。该方法特别适用于从全基因组染色体构象捕获数据（如 Hi-C）中识别着丝粒等问题。BlockFormer 通过利用共享结构和用于生成合成训练数据的自定义模拟器，有效地处理了实体数量和大小的可变性。该方法在恢复不同物种的着丝粒基因组位置方面表现出准确性。
TOOL · CL_44863 · May 22 · 04:00

TONIC框架为基础模型优化无线通信

研究人员推出了一种名为TONIC的新型无线系统语义通信框架，该框架优先考虑基础模型的令牌级相关性。该方法超越了传统的比特级保真度，根据令牌对任务的重要性动态分配保护。在接收端，一个置信度感知门控机制处理不可靠的决策，允许一个完成模型恢复丢失的信息以进行准确推理。实验表明，TONIC在各种信道条件下，在图像分类任务上的性能优于现有方法。
TOOL · CL_44846 · May 22 · 04:00

SiameseNorm 架构提高了 Transformer 训练稳定性

研究人员推出了一种新颖的双流架构 SiameseNorm，旨在解决 Transformer 模型中长期存在的预归一化（Pre-Norm）和后归一化（Post-Norm）之间的冲突。该方法在共享残差块内耦合了预归一化和后归一化流，能够在没有显著开销的情况下提高训练稳定性和表示能力。在包括密集语言模型、Vision Transformer 和 Diffusion Transformer 在内的各种模型尺寸和类型上的实验表明，性能持续提升且训练稳定。
TOOL · CL_44831 · May 22 · 04:00

新的西班牙网络安全大模型 VectraYX-Nano 集成了原生工具使用能力

研究人员开发了 VectraYX-Nano，一个拥有 4200 万参数、专门为拉丁美洲的西班牙语网络安全任务训练的语言模型。该模型包含了一个新颖的西班牙网络安全语料库、一个专门的 Transformer 解码器架构，以及带有回放机制的课程学习。值得注意的是，它通过模型上下文协议 (MCP) 具备了原生工具调用能力，使其成为首个发布并实现端到端 MCP 集成的西班牙语原生网络安全大模型。
TOOL · CL_44797 · May 22 · 04:00

精确线性注意力将Transformer复杂度削减至线性时间

研究人员开发了精确线性注意力（ELA），一种将Transformer计算复杂度降低到线性时间且无近似误差的新型机制。ELA通过施加核约束解决了梯度爆炸和令牌稀释等先前存在的局限性，并引入了诸如用于残差连接的超链接结构和用于增强记忆和隐式强化学习的记忆叶模块等创新。该方法在解码速度和内存使用方面均有显著改进，其应用已扩展到YOLO-LAT等视觉模型，以实现更快的推理和参数减少。
TOOL · CL_44741 · May 22 · 04:00

预训练数据决定LLM的缩放定律，研究发现

研究人员发现，预训练数据是大型语言模型中损失到损失缩放定律的主要决定因素。他们的实验表明，模型大小、优化超参数，甚至Transformer和状态空间模型之间的架构差异等因素对这些缩放趋势的影响有限。研究结果表明，精心策划的预训练数据集对于优化下游性能至关重要，而其他模型配置可以针对训练效率进行调整。
TOOL · CL_43430 · May 22 · 03:45

清华研究人员使用中间表示来弥合AI模态鸿沟

清华大学智能产业研究院的研究人员开发了一种新颖的方法，使用“中间表示”来弥合AI中不同数据模态之间的鸿沟。他们的工作在CVPR 2026的四篇论文中发表，引入了一种“第三语言”，使AI系统能够更有效地理解和处理信息。该方法涉及创建一种中间表示，例如用于机器人动作和视频生成的Occupancy，或用于4D场景重建的Gaussian Maps，这种表示比直接在不同数据类型之间进行映射更容易被AI理解。
RESEARCH · CL_43911 · May 21 · 17:33

MambaGaze 框架使用 Mamba-2 进行认知负荷评估

研究人员开发了 MambaGaze，一个利用眼动追踪数据准确评估认知负荷的新框架。该系统利用双向 Mamba-2 有效建模长程时间依赖性，并采用 XMD 编码方法显式处理因眨眼等原因造成的缺失数据。MambaGaze 在基准数据集上的表现优于现有模型，并可在 NVIDIA Jetson 平台等边缘设备上进行实时部署。
RESEARCH · CL_44048 · May 21 · 13:43

Transformer arithmetic study reveals disconnect between representation and computation

Researchers have published a paper investigating how Transformers compute algorithmic intermediates, using arithmetic tasks as a testbed. The study found that while a Transformer model achieved high accuracy on base-dig…
RESEARCH · CL_43982 · May 21 · 13:35

新的注意力方法以亚二次复杂度加速实体跟踪

研究人员开发了一种名为结构化稀疏注意力（Structured-Sparse Attention）的新型注意力机制，旨在改进长序列中的实体跟踪。该方法利用了学习到的注意力的结构化特性，将大部分计算集中在局部块对角线邻域内。通过以分块方式评估交互，该技术实现了亚二次复杂度，在保持与密集注意力算子相当的准确性的同时降低了计算成本。
RESEARCH · CL_44102 · May 21 · 09:59

新方法实现乐谱图像的基于内容的搜索

研究人员开发了新的乐谱内容检索方法，超越了传统的元数据搜索。该研究探讨了与搜索相关的特征，并提出了构建查询数据集的系统方法。实验将基于转录的光学音乐识别（OMR）与无转录的Transformer和大型语言模型进行了比较，发现OMR在特定领域表现出色，而无转录模型能更好地处理可变性。
RESEARCH · CL_44104 · May 21 · 09:32

新系统可从房间角落估计3D手部姿态

研究人员开发了REACH-Net，一个新颖的3D手部姿态估计系统，能够从房间角落的固定摄像头准确追踪手部形状和姿态。该系统通过利用手部-身体协调和时间进展，设计用于处理极低分辨率和遮挡的视图。为了训练和评估REACH-Net，创建了一个名为REACH的大型新数据集，包含50名参与者进行日常活动的数据，手部数据通过隐藏的胸部摄像头捕获。
RESEARCH · CL_44009 · May 21 · 05:02

LLM analysis method reveals training data secrets and ethical risks

Researchers have developed a method using singular value decomposition (SVD) of a large language model's weight matrix to reveal interpretable semantic subspaces. This technique, requiring minimal code and no model infe…
TOOL · CL_42031 · May 21 · 02:50

Transformers Emerge as Core Technology Driving Modern AI

The Transformer architecture has become the bedrock of contemporary artificial intelligence, shifting the paradigm from simple memorization to sophisticated contextual understanding. This foundational technology enables…
RESEARCH · CL_42484 · May 20 · 14:08

量子强化学习推动变分量子算法状态制备和过程合成

研究人员开发了一个名为CRiSP的新框架，该框架使用强化学习和基于Transformer的策略来改进变分量子算法（VQA）的初始状态制备。该方法旨在克服 barren plateaus 和局部最小值等限制，在QAOA基准测试中优于现有的Clifford初始化技术。另外，另一项研究探索了用于过程合成的量子强化学习，提出了状态编码算法以提高可扩展性，并在流程图合成问题上展示了与经典强化学习方法相比具有竞争力的性能。
TOOL · CL_41856 · May 20 · 12:16

New Musical Attention Transformer enhances AI music generation

Researchers have developed a new attention mechanism called Musical Attention to improve AI-generated music. This method incorporates musical metadata like bar numbers, key, and tempo directly into the Transformer's att…
TOOL · CL_41857 · May 20 · 11:56

Self-pretraining boosts Transformer sequence classification accuracy

Researchers have investigated the effectiveness of self-pretraining (SPT) for Transformer models in sequence classification tasks. Their work replicates and ablates previous findings, suggesting that SPT improves optimi…

机器人适应框架 CoRMA 使用语义上下文进行装配

新的内存分页技术提高了混合式大语言模型推理效率

Transformer输出多样性由架构预测

BlockFormer 使用 Transformer 从交互图中推断基因组位置

TONIC框架为基础模型优化无线通信

SiameseNorm 架构提高了 Transformer 训练稳定性

新的西班牙网络安全大模型 VectraYX-Nano 集成了原生工具使用能力

精确线性注意力将Transformer复杂度削减至线性时间

预训练数据决定LLM的缩放定律，研究发现

清华研究人员使用中间表示来弥合AI模态鸿沟

MambaGaze 框架使用 Mamba-2 进行认知负荷评估

Transformer arithmetic study reveals disconnect between representation and computation

新的注意力方法以亚二次复杂度加速实体跟踪

新方法实现乐谱图像的基于内容的搜索

新系统可从房间角落估计3D手部姿态

LLM analysis method reveals training data secrets and ethical risks

Transformers Emerge as Core Technology Driving Modern AI

量子强化学习推动变分量子算法状态制备和过程合成

New Musical Attention Transformer enhances AI music generation

Self-pretraining boosts Transformer sequence classification accuracy