实体 LongBench: a bilingual, multitask benchmark for long context understanding

LongBench: a bilingual, multitask benchmark for long context understanding

PulseAugur coverage of LongBench: a bilingual, multitask benchmark for long context understanding — every cluster mentioning LongBench: a bilingual, multitask benchmark for long context understanding across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 17

发布 · 30天

90 天内 0

论文 · 30天

90 天内 15

层级分布 · 90 天

research 8
tool 8
commentary 1

主题

论文 15
模型发布 10
基础设施 9
安全 1
产品 1

关系

used by SnapKV 60%

情绪 · 30 天

9 天有情绪数据

最近 · 第 1/1 页 · 共 17 条

RESEARCH · CL_131290 · Jul 7 · 11:35

新框架LongCrafter增强LLM长上下文理解能力

研究人员推出了一种名为LongCrafter的新框架，旨在生成多样化的高质量数据，用于微调大型语言模型（LLMs），以提高其长上下文理解能力。该框架通过分层组织任务、将生成指令与证据图关联，并确保可控的难度和忠实度，解决了现有方法的局限性。使用LongCrafter数据微调的模型在LongBench和LongBench-v2等基准测试中表现出优越的性能，尤其在更具挑战性的任务上表现出色，并缓解了“中间丢失”问题。
TOOL · CL_123006 · Jul 3 · 04:00

新的RAGP方法使用图剪枝和莱维行走来压缩提示

研究人员开发了一种新颖的提示压缩技术，称为RAGP，它将文本建模为多重图，以捕捉局部句法和全局语义关系。该方法利用莱维行走来有效地识别和修剪图结构中的冗余信息。在LongBench基准测试上的实验表明，RAGP在更高的压缩率下，平均得分高于LongLLMLingua等现有方法。
TOOL · CL_115682 · Jun 29 · 04:00

新的强化学习框架优化LLM KV缓存以实现高效推理

研究人员开发了一个名为KV Policy (KVP) 的新颖框架，通过优化键值（KV）缓存来解决大型语言模型（LLM）的内存需求。KVP将KV缓存驱逐重构为一个强化学习问题，训练轻量级代理来预测未来解码的token有用性。该方法在长上下文和多轮对话基准测试中显著优于现有的启发式方法，并展示了在不改变底层LLM的情况下泛化到新任务和更长序列长度的能力。
COMMENTARY · CL_113515 · Jun 27 · 12:23

100万个上下文窗口是LLM的容量，而非能力

虽然大型语言模型现在支持多达一百万个令牌的上下文窗口，但这种容量并不等同于完美的记忆或推理。研究人员指出，模型在长文本中间的信息处理方面常常遇到困难，表现出“针尖上的麦子”式的失败，并且在多跳推理方面存在困难，可能导致幻觉。为了解决这些局限性，至关重要的是，不要仅仅依赖令牌数量，而是要通过学术基准测试和特定领域测试，对模型在特定用例上的表现进行彻底评估。
TOOL · CL_111684 · Jun 26 · 04:00

新的SSM适配器在长上下文微调方面优于LoRA

研究人员开发了一种名为Hankel降阶模型（HRM）适配器的新型参数高效微调（PEFT）方法，该方法利用状态空间模型（SSM）进行长上下文微调。与专注于注意力机制的传统PEFT方法不同，HRM适配器被设计用于注入MLP块，并利用SSM的时间不变性进行高效计算。在使用Mistral-7B进行LongBench等长上下文任务的评估中，HRM适配器表现优于LoRA变体，在准确性和ROUGE-1分数上均取得了显著提升。
RESEARCH · CL_115713 · Jun 25 · 16:16

新的注意力机制提升LLM效率并减少幻觉 · 跟踪10个来源

研究人员正在开发新颖的注意力机制，以提高大型语言模型（LLM）和多模态大型语言模型（MLLM）的效率和能力。这些进展侧重于优化长上下文的稀疏注意力，降低计算成本，并减轻幻觉和视觉基础薄弱等问题。Flash Sparse Attention (FSA)、Information-Regularized Attention (IRA) 和 Multipole Semantic Attention (MuSe) 等技术旨在提高性能、降低延迟，…
RESEARCH · CL_107863 · Jun 22 · 21:42

Nexus Sampling 改进 LLM KV 缓存驱逐，减少内存使用

研究人员开发了 Nexus Sampling，一种用于大型语言模型 KV 缓存驱逐的新颖方法，特别适用于长上下文和代理工作负载。这种无需训练的方法将 Nexus 评分与加权水库采样相结合，以保留可能因确定性 top-K 选择而丢失的重要 token。Nexus Sampling 在保留细微重要 token 方面理论上优于传统方法，并在 LongBench 等基准测试中实证达到了与密集注意力相当的性能，同时显著减少了缓存内存使用。
RESEARCH · CL_106564 · Jun 21 · 08:48

新的 KV 缓存压缩技术提升大语言模型推理性能 · 跟踪 9 个来源

多篇研究论文探讨了优化大语言模型（LLM）服务中的键值（KV）缓存的新技术，以解决内存和性能瓶颈。这些方法包括量化、剪枝、合并和频率引导压缩，旨在减少内存使用并提高长上下文工作负载的推理速度。研究评估了这些技术在各种基准测试和模型上的表现，强调了压缩率、任务质量和系统性能之间的权衡，并建议根据工作负载选择压缩策略。
RESEARCH · CL_93251 · Jun 15 · 00:00

新的LLM KV缓存压缩方法应对安全性和效率挑战

研究人员正在开发新的方法来压缩大型语言模型（LLM）中的键值（KV）缓存，以减少内存使用并提高推理效率。AnchorKV通过偏向于不保留有害提示的token来关注安全性，而PolyKV通过对不同的Transformer层应用不同的策略和预算来优化压缩。Tangram在服务框架中实现了实用的非均匀KV缓存压缩，而BACON通过结合观察窗口注意力和最后查询证据来增强多模态KV缓存压缩。此外，TurboQuant和OSCAR代表了KV缓存量…
RESEARCH · CL_76817 · Jun 5 · 04:49

新的EASE-TTT框架提升小型LLM的长上下文问答能力

研究人员开发了EASE-TTT，一种用于改进小型语言模型长上下文问答能力的新型框架。该方法将检索到的证据片段与注意力机制对齐，以指导模型适应。在六个LongBench QA任务上的实验表明，EASE-TTT的性能优于现有的检索和测试时训练方法。
TOOL · CL_68443 · Jun 3 · 04:00

EndPrompt方法可高效扩展LLM上下文窗口

研究人员开发了一种名为EndPrompt的新方法，可以在无需对长序列进行大量训练的情况下，高效地扩展大型语言模型的上下文窗口。该技术通过使用简短的初始片段和简短的终端提示进行训练，引入了必要的位置信息。EndPrompt在LongBench等基准测试中表现出显著的改进，其性能优于其他方法，同时消耗的计算资源大大减少。
TOOL · CL_38307 · May 18 · 08:41

KV 缓存驱逐保护比评分更重要

研究人员开发了一种管理大型语言模型中 KV 缓存驱逐的新方法，发现结构性保护比评分算法更关键。他们对 Transformer 模型的研究表明，如果没有保护，现有的驱逐策略会显著退化。通过为结构性保护保留一小部分缓存，模型即使在缓存大小有限的情况下，也能恢复相当数量的原始质量。
TOOL · CL_32702 · May 14 · 09:00

EndPrompt方法通过稀疏监督高效扩展LLM上下文窗口

研究人员开发了EndPrompt，一种无需在长序列上进行大量训练即可有效扩展大型语言模型上下文窗口的新颖方法。通过将具有高位置索引的简短终端提示附加到原始短上下文，EndPrompt在保持语义连续性的同时引入了必要的位置距离。该方法显著降低了计算成本，并在LongBench等基准测试中表现优于现有方法，挑战了上下文扩展需要密集长序列训练的必要性。
TOOL · CL_24313 · May 9 · 16:31

Google 的 TurboQuant 将 LLM 内存使用量减少 6 倍，准确率无损

Google 研究人员开发了一种名为 TurboQuant 的新技术，可显著减少大型语言模型所需的内存。通过采用数据旋转和标量量化的两步流程，TurboQuant 将 KV 缓存压缩至每值 3 位，比标准的 16 位减少了 6 倍，且准确率没有任何损失。这一进步对于自托管 LLM 至关重要，因为 KV 缓存是长上下文窗口的主要成本驱动因素，而 TurboQuant 有望降低基础设施支出并提高性能。
TOOL · CL_22116 · May 8 · 04:00

新论文提出残余质量核算用于部分 KV 解码

研究人员开发了一种新颖的部分 KV 解码方法，该方法通过仅为一部分 token 计算精确的 softmax 贡献来优化大型语言模型的效率。该方法使用学习到的摘要状态来表示剩余的 token，在保持性能的同时显著降低了计算负担。在 Llama-3.2-Instruct 模型上进行的实验表明，在 RULER 和 BABILong 等基准测试中，尤其是在严格的精确支持预算下，相比基线方法有所改进。
RESEARCH · CL_14463 · Apr 27 · 04:00

新研究探讨大语言模型安全、效率和训练优化

研究人员正在开发新的方法来提高大语言模型（LLMs）的效率和安全性。一种名为“Widening the Gap”的方法利用了异常值注入来破坏LLM量化，证明安全风险已延伸到AWQ和GPTQ等先进量化技术。同时，其他研究则专注于通过自适应量化（XFP）、设备-边缘协作的推测解码（GELATO）以及高效的KV缓存管理（SparKV、Feather、Dooly）来优化LLM推理。此外，新的框架正在涌现，用于分析LLM推理的稳定性（Queue…
RESEARCH · CL_39746 · Mar 4 · 00:00

新方法解决长上下文 LLM KV 缓存压缩问题

2026年5月和6月发布的多篇研究论文提出了压缩大型语言模型（LLM）键值（KV）缓存的新颖方法。这些技术旨在减少与长上下文长度相关的显著内存开销，从而在资源受限的环境中实现更高效的推理。方法包括偶发式管理、用于合并的全局回归、抗漂移检索和低秩近似，所有这些都旨在在大幅降低内存使用量和延迟的同时保持模型准确性。

新框架LongCrafter增强LLM长上下文理解能力

新的RAGP方法使用图剪枝和莱维行走来压缩提示

新的强化学习框架优化LLM KV缓存以实现高效推理

100万个上下文窗口是LLM的容量，而非能力

新的SSM适配器在长上下文微调方面优于LoRA

新的注意力机制提升LLM效率并减少幻觉 · 跟踪10个来源

Nexus Sampling 改进 LLM KV 缓存驱逐，减少内存使用

新的 KV 缓存压缩技术提升大语言模型推理性能 · 跟踪 9 个来源

新的LLM KV缓存压缩方法应对安全性和效率挑战

新的EASE-TTT框架提升小型LLM的长上下文问答能力

EndPrompt方法可高效扩展LLM上下文窗口

KV 缓存驱逐保护比评分更重要

EndPrompt方法通过稀疏监督高效扩展LLM上下文窗口

Google 的 TurboQuant 将 LLM 内存使用量减少 6 倍，准确率无损

新论文提出残余质量核算用于部分 KV 解码

新研究探讨大语言模型安全、效率和训练优化

新方法解决长上下文 LLM KV 缓存压缩问题