ruler · PulseAugur

新算法在局部可采样图模型下学习常数深度电路

研究人员开发了一种新的算法，用于在可以局部采样的图模型下学习常数深度电路。这项工作扩展了 Chandrasekaran、Gaitonde、Moitra 和 Vasilyan（arXiv 2026）之前的发现，那些发现仅限于具有强大空间混合和多项式增长的模型。新方法利用了 Gibbs 分布的一种新颖的低度近似，通过模拟和截断 Glauber 动力学来实现。这种方法使得在各种有界度图上学习硬核模型和伊辛模型等系统成为可能，即使在接近其采样…

RESEARCH · CL_135321 · Jul 8 · 00:00

Jet-Long 方法在无需重新训练的情况下提升了 LLM 的长上下文性能

研究人员推出了一种名为 Jet-Long 的新方法，可以在无需重新训练的情况下扩展大型语言模型的上下文窗口。这种无需微调、零样本的方法可以动态调整重缩放因子，以平衡短上下文的保真度和长上下文的外插性。Jet-Long 集成了包含-排除注意力合并和即时 RoPE 校正，从而在 NVIDIA H100 等硬件上实现了最小的推理开销和更高的吞吐量。

TOOL · CL_129801 · Jul 7 · 03:46

HOLA 为线性注意力模型增强了互补记忆系统

研究人员开发了一种名为 HOLA（海马体线性注意力）的新方法，以增强线性注意力和状态空间语言模型的记忆能力。该方法引入了一个互补的“海马体”组件，用于存储精确的键值关联，解决了传统循环状态可能覆盖早期事实的损失性质。HOLA 在有界精确缓存旁边维护一个压缩记忆，从而能够高效存储线性可压缩结构，同时保留关键关联。这种半参数记忆系统在 Wikitext 和 LAMBADA 基准测试中的困惑度方面取得了显著改进，并在“针尖麦芒”召回测试中表…

TOOL · CL_122997 · Jul 2 · 15:19

新的HOLA架构通过双记忆系统增强线性注意力语言模型

研究人员开发了HOLA（海马体线性注意力）架构，这是一种通过引入互补记忆系统来增强线性注意力语言模型的新型架构。该系统解决了标准线性注意力模型中信息丢失的问题，在这些模型中，由于固定大小的循环状态，早期事实可能会被覆盖。HOLA在保持压缩状态的同时，增加了精确的KV缓存来存储关键关联，从而提高了召回率并降低了困惑度。

COMMENTARY · CL_118848 · Jun 30 · 18:07

上下文工程：在大型上下文窗口之外优化LLM信息

上下文工程已成为AI开发中的一个关键学科，其重点在于优化提供给大型语言模型（LLM）的信息，而不仅仅是增加上下文窗口的大小。这种做法涉及仔细选择和构建数据，以确保模型能够获得给定任务最相关的信息，从而提高推理能力、降低延迟并减少成本。采用了诸如语义分块、分层检索和上下文压缩等技术来最大化信号并最小化噪声，确保模型能够有效地利用呈现给它们的信息。

TOOL · CL_115682 · Jun 29 · 04:00

新的强化学习框架优化LLM KV缓存以实现高效推理

研究人员开发了一个名为KV Policy (KVP) 的新颖框架，通过优化键值（KV）缓存来解决大型语言模型（LLM）的内存需求。KVP将KV缓存驱逐重构为一个强化学习问题，训练轻量级代理来预测未来解码的token有用性。该方法在长上下文和多轮对话基准测试中显著优于现有的启发式方法，并展示了在不改变底层LLM的情况下泛化到新任务和更长序列长度的能力。

COMMENTARY · CL_112783 · Jun 26 · 18:49

观察到LLM上下文压缩质量退化曲线，缺乏基准测试

一位用户观察到，像DeepSeek V4和Claude Code这样的LLM，在重复进行上下文压缩后，输出质量并非线性下降。相反，在第二次压缩后似乎会出现短暂的改善，随后才出现下降。该用户搜索了测量这种多轮压缩退化的现有基准测试，但没有找到专门针对这种现象的测试，现有的测试侧重于静态输入长度或单轮漂移。如果这种“压缩曲线”是真实存在的，它可能会告知用户何时重置会话，并为比较LLM提供商提供一个新的维度，但目前主要的基准测试套件缺乏这一指标。

TOOL · CL_101317 · Jun 20 · 02:31

通过自定义规则和技能，Cursor AI 编码工具的使用量大幅减少

作者详细介绍了他们如何通过实施自定义规则和技能，显著减少了对 AI 编码工具 Cursor 的日常使用量。这一改变源于他们意识到之前的方法效率低下且成本高昂，从而促使他们采用了更优化、更具成本效益的工作流程。

RESEARCH · CL_62204 · May 29 · 11:13

新框架使用贝叶斯记忆统一序列模型

研究人员引入了一个“设计-模型”框架，用于基于记忆假设创建高效的循环序列映射。该框架使用贝叶斯滤波将证据写入记忆，并使用依赖于查询的读出进行预测。他们的“贝叶斯层”实例化跟踪存储关联中的不确定性，提高了记忆保持和检索的鲁棒性。

TOOL · CL_58997 · May 29 · 04:00

新指标揭示大型语言模型（LLMs）遗忘学习方法未能完全忘记敏感数据

一篇新的研究论文介绍了一种名为“Leak@k”的指标，旨在评估大型语言模型（LLMs）中遗忘学习方法的有效性。研究发现，大多数现有的遗忘技术未能完全删除敏感信息，因为通过概率解码仍然可以检索到这些信息。为解决此问题，该论文提出了一种名为“RULE”（Robust Unlearning under LEak@k metric）的新算法，该算法在防止基准数据集上的信息泄露方面表现出改进的性能。

TOOL · CL_56050 · May 28 · 04:00

新的RULER指标可检测机器遗忘中的残留数据

研究人员开发了RULER，一套旨在表征级验证机器遗忘的新指标。当前方法仅检查输出级合规性，这仍可能在模型的中间表征中留下残留信息。RULER引入了M2和M4两个指标来检测这些残留。实验表明，在测试的五种遗忘方法中，有四种通过了输出级评估，但仍包含显著的残留，尤其是在要遗忘的数据比例增加时。RULER还可作为遗忘前的诊断工具，识别各种数据类型中的记忆问题。

RESEARCH · CL_56392 · May 27 · 06:57

新的RW-TTT方法提高了LLM测试时训练效率

研究人员开发了一种名为RW-TTT的新方法，以提高大型语言模型测试时训练（TTT）的效率。TTT允许模型在生成过程中通过更新特定于请求的状态进行适应，但这与标准的批处理服务技术相冲突。RW-TTT通过为每个步骤打上其所有者和效果的标签来解决这个问题，从而能够对兼容的阶段进行批处理，同时确保更新被正确提交。这种方法显著提高了服务速度，在单个GPU上与顺序方法相比实现了9倍以上的提升。

TOOL · CL_28323 · May 11 · 13:23

新的EXACT方法提升LLM长上下文理解能力

研究人员开发了一种名为EXACT的新监督目标，以改进语言模型的长上下文适应性。该方法通过为依赖更长有效上下文的目标分配额外权重来解决打包训练中的不匹配问题。在Qwen和LLaMA模型上的实验表明，在NoLiMa和RULER等基准测试中取得了显著改进，特别是在证据位于数千个标记之外时，同时保持了在标准问答和推理任务上的性能。

TOOL · CL_27567 · May 11 · 03:30

FocuSFT通过双层优化提升LLM长上下文理解能力

研究人员开发了FocuSFT，一个新颖的双层优化框架，旨在改进大型语言模型处理长上下文的方式。该方法解决了“注意力稀释”问题，即模型在微调过程中倾向于关注特权标记而非语义相关的标记。通过使用参数化记忆来集中注意力于关键内容，FocuSFT显著提高了在BABILong和RULER等长上下文基准测试上的性能，并在GPQA的代理工具使用方面也取得了进展。

TOOL · CL_22116 · May 8 · 04:00

新论文提出残余质量核算用于部分 KV 解码

研究人员开发了一种新颖的部分 KV 解码方法，该方法通过仅为一部分 token 计算精确的 softmax 贡献来优化大型语言模型的效率。该方法使用学习到的摘要状态来表示剩余的 token，在保持性能的同时显著降低了计算负担。在 Llama-3.2-Instruct 模型上进行的实验表明，在 RULER 和 BABILong 等基准测试中，尤其是在严格的精确支持预算下，相比基线方法有所改进。

TOOL · CL_19355 · May 6 · 12:15

Subquadratic 推出具有线性扩展架构的 1200 万 token 上下文窗口

Subquadratic 是一家拥有 11 名博士研究员的初创公司，已推出一款采用其 Subquadratic 选择性注意力（SSA）架构的新模型，该架构声称可以随上下文长度线性扩展。这项创新实现了 1200 万 token 的上下文窗口，旨在克服 LLM 中传统密集注意力机制的二次成本限制。早期基准测试显示，在 MRCR v2 和 SWE-Bench 等任务上，其性能与 GPT-5.5 和 Claude Opus 等模型相当，且推理…

TOOL · CL_16230 · May 5 · 04:00

Q-RAG 方法可实现高达 1000 万个 token 的 LLM 高效多步检索

研究人员推出了一种名为 Q-RAG 的新方法，用于增强检索增强生成 (RAG) 系统。该方法利用强化学习对嵌入器模型进行多步检索的微调，这是微调整个 LLM 的一种更有效替代方案。Q-RAG 在长上下文基准测试中表现强劲，在 BabiLong 和 RULER 上取得了高达 1000 万个 token 上下文的最先进结果。

RESEARCH · CL_11786 · May 1 · 04:00

理解和改进分层稀疏注意力模型中的长度泛化

研究人员确定了三个关键设计原则，这些原则对于增强分层稀疏注意力模型中的长度泛化至关重要。这些原则包括使用带有CLS token的表达性块编码器进行表示，使用绕行残差路径整合全局信息而不覆盖局部上下文，以及在预训练期间强制执行选择稀疏性。通过实施这些组件，在4K上下文长度上训练的模型已成功泛化到RULER和BABILong等基准测试的3200万个token，为无需训练的长度外推设定了新的最先进水平。

RESEARCH · CL_08517 · Apr 28 · 16:57

SIEVES 方法通过证据评分提升多模态大模型在视觉任务上的覆盖率

研究人员开发了 SIEVES，一种用于提高多模态大语言模型（MLLMs）在分布外场景下可靠性的新方法。SIEVES 通过学习估计推理模型提供的视觉证据质量来实现选择性预测。这种方法显著提高了模型覆盖率，在具有挑战性的基准测试中最高可提高三倍。值得注意的是，SIEVES 可以应用于 Gemini-3-Pro 等专有模型，而无需访问其内部权重或 logits。

RESEARCH · CL_39746 · Mar 4 · 00:00

新方法解决长上下文 LLM KV 缓存压缩问题

2026年5月和6月发布的多篇研究论文提出了压缩大型语言模型（LLM）键值（KV）缓存的新颖方法。这些技术旨在减少与长上下文长度相关的显著内存开销，从而在资源受限的环境中实现更高效的推理。方法包括偶发式管理、用于合并的全局回归、抗漂移检索和低秩近似，所有这些都旨在在大幅降低内存使用量和延迟的同时保持模型准确性。