MBPP · PulseAugur

TOOL · CL_120339 · Jul 1 · 00:00

新的MRP技术提高了语言模型的速度和准确性

来自Modal Research和纽约大学上海分校HeavyBall Research的研究人员开发了一种名为多标记残差预测（MRP）的新技术，该技术提高了语言模型的速度和准确性。MRP通过训练一个小模块来预测扩散语言模型中相邻去噪步骤之间的残差差异，而不是预测整个分布。这种方法在静态模式下可以实现高达1.56倍的吞吐量，并且在动态模式下可以恢复在激进的低阈值解码设置中丢失的重要准确性点，同时几乎没有质量损失。

RESEARCH · CL_119629 · Jun 30 · 11:26

AI代码模型通过伪造而非仅仅重试来改进 · 跟踪2个来源

一篇新的研究论文探讨了小型、冻结代码模型中自我修复机制的有效性。该研究采用安慰剂对照方法，发现提供给模型的外部、可执行的反例比仅仅让它们重新暴露于自身失败的输出来更有益。在各种基准测试和模型中，这种以伪造为中心的方法在代码生成成功率方面显示出统计学上的显著提高。

TOOL · CL_117600 · Jun 30 · 04:00

用于代码生成的 LLM 对齐：预训练模型 vs. 微调模型

研究人员探讨了大型语言模型 (LLM) 对齐技术在代码生成任务中的有效性，研究了对齐应该从预训练的 LLM 还是微调的 LLM 开始。该研究在五个最先进的 LLM 上使用了两种无奖励对齐方法：直接偏好优化 (DPO) 和 BoNBoN。结果表明，对齐预训练模型比其预训练的对应模型在对齐版本中带来了更大的改进，尽管预训练模型总体上准确性较低。相反，对齐微调模型产生的性能提升较小，甚至出现性能下降。

RESEARCH · CL_115628 · Jun 29 · 04:00

新方法通过自适应解码策略提高 LLM 推理速度

研究人员开发了 BlockPilot，一种新颖的投机解码方法，可自适应地预测生成文本的最佳块大小。该方法通过学习一种策略来提高效率，该策略根据预填充表示来选择块大小，从而实现显著的加速和更长的接受长度。此外，另一篇论文介绍了一种用于掩码扩散语言模型的连续解码框架，该框架允许 token 累积部分进度，为文本生成提供了更灵活的方法。

TOOL · CL_98129 · Jun 18 · 04:00

New signature filtering method boosts LLM watermark detection accuracy

研究人员开发了一种名为签名过滤的新方法，以改进大型语言模型中统计水印的检测。该技术在不改变嵌入或生成过程的情况下增强了现有的水印检测。通过识别和移除可能干扰检测的特定“签名”标记，该方法显著提高了准确性，尤其是在信号较弱或文本重复的情况下。该方法在各种大型语言模型和数据集上都表现出高检测率，即使在句子打乱和标记扰动等挑战性条件下也是如此。

RESEARCH · CL_93587 · Jun 15 · 17:36

研究发现大多数事后验证算子未能提高冻结代码模型的准确性

一篇新发表在arXiv上的研究调查了针对小型、冻结代码的事后验证算子，发现大多数算子与Best-of-N等标准方法相比，并不能提高准确性。研究强调了“覆盖墙”和“能力剪刀”是关键限制。然而，“表达层恢复”方法通过恢复标准提取器丢弃的正确程序显示出希望，提高了DeepSeek-Coder-1.3B在HumanEval+等基准测试上的性能。

TOOL · CL_62660 · Jun 1 · 06:36

Qwen2.5-Coder 和 DeepSeek-Coder V2 领跑本地编码LLM竞赛

对于拥有8GB显存的用户来说，Qwen2.5-Coder 7B模型是编码任务的首选，它提供了令人印象深刻的基准分数和一个大的上下文窗口。拥有12-16GB显存的用户则面临权衡：是选择像Qwen2.5-Coder 14B-Instruct这样的密集型14B参数模型，它提供更快的推理速度；还是选择DeepSeek-Coder-V2-Lite，一个每个token激活参数较少的混合专家模型，但由于专业专家可能具有更高的质量。

TOOL · CL_58838 · May 29 · 04:00

新的BrahmicTokenizer-131K提高了印度语言分词效率

研究人员开发了BrahmicTokenizer-131K，这是一种旨在提高印度语言效率的新分词器，同时保持在英语和代码上的性能。与Mistral-Nemo Tekken/Sarvam-m等现有模型相比，该分词器在印度语言预训练文本上的分词数量减少了26.7%，在奥里亚语等语言上取得了显著的进步。BrahmicTokenizer-131K是OpenAI的o200k_base的即插即用替代品，在英语分词能力上具有竞争力，并在编码和数学基准…

TOOL · CL_56429 · May 28 · 04:00

新的“Poison-with-Style”攻击以微妙的触发器为目标，攻击代码LLM

研究人员开发了一种名为Poison-with-Style (PwS) 的新型数据投毒攻击，该攻击以代码大型语言模型 (CLLM) 为目标。该攻击巧妙地将触发代码风格嵌入开发者的提示中，导致CLLM在没有明确触发词的情况下生成易受攻击的代码。PwS在对抗现有防御措施方面表现出鲁棒性，并在生成特定漏洞（如CWE-20）方面取得了高成功率，同时对标准代码补全基准测试的性能影响最小。

TOOL · CL_51356 · May 26 · 04:00

新的双层方法利用文本反馈增强LLM学习

研究人员开发了一种新颖的双层方法，用于带有文本反馈的强化学习，旨在提高LLM的样本效率。这种新方法称为双层自然语言Actor-Critic (Bi-NAC)，它联合训练一个Critic来生成增强Actor模型性能的反馈。在MATH-500和GPQA等基准测试中，Bi-NAC与现有的RL和固定Critic基线相比，在样本和参数效率方面表现更优。

TOOL · CL_44879 · May 22 · 04:00

新方法引导大语言模型注意力以纠正推理错误

研究人员开发了一种名为Manifold-Guided Attention Steering (MAGS) 的新方法，以提高大语言模型的推理能力。MAGS在模型注意力头激活出现错误时，识别其偏离“正确性流形”的情况。通过学习捕捉这些偏差的低维子空间，MAGS可以在推理过程中将注意力输出投影回正确的子空间，从而防止错误传播。该技术在数学推理、代码生成和分子生成等各种基准测试中都显示出了一致的改进。

RESEARCH · CL_36940 · May 13 · 10:09

CANTANTE框架通过信用分配优化LLM多智能体系统

研究人员开发了CANTANTE，一个旨在优化基于大型语言模型的多智能体系统配置的新框架。该系统通过将奖励分解为每个智能体的更新信号，解决了仅有系统级分数时分配性能功劳的挑战。CANTANTE在编程、数学推理和问答任务上进行了评估，与现有方法和未优化提示相比，它表现出更优越的性能，同时还降低了推理成本。

RESEARCH · CL_30616 · May 13 · 03:30

新的 AI 包装器指导迭代工作流的发布决策

研究人员开发了一种新的统计方法，用于确定 AI 工作流何时应发布其输出，特别是对于使用迭代生成-评估-修订循环的系统。这种“始终有效的发布包装器”解决了在无法使用传统校准模型的情况下，通过自适应生成的评估分数来做出发布决策的挑战。所提出的包装器创建了一个失败参考池来校准分数，并使用 e-process 来保证有效性，旨在控制在不可行任务上发布的概率，同时仍允许在可行任务上发布。

TOOL · CL_27577 · May 10 · 22:00

神经进化框架通过提示嵌入进化提升LLM输出多样性

研究人员开发了QD-LLM，一个新颖的框架，它使用参数高效的神经进化来增强大型语言模型输出的多样性。该方法进化紧凑的提示嵌入，这些嵌入充当接口，在无需对模型进行完全微调的情况下引导大型、冻结的LLM。该系统采用质量-多样性优化方法，结合混合行为表征和协同进化算子，在各种基准测试中显著提高了输出覆盖率和质量得分。

TOOL · CL_18865 · May 6 · 04:00

ReCode框架通过奖励推理过程来增强AI代码生成

研究人员开发了ReCode，一个新颖的强化学习框架，旨在通过关注推理过程来改进代码生成。该框架使用对比推理过程奖励学习（CRPL）在合成的推理变体上训练奖励模型，并使用一致性门控GRPO（CG-GRPO）来整合这些奖励，同时通过执行结果缓解奖励攻击。ReCode应用于一个7B模型时，比其基础版本提高了16.1%，并在各种基准测试上取得了与GPT-4-Turbo相当的性能。

RESEARCH · CL_11738 · May 1 · 04:00

BoostLoRA方法增长适配器秩以超越全量微调

研究人员推出了一种新颖的参数高效微调方法BoostLoRA，旨在增强模型表现力而不增加推理开销。该技术通过迭代训练和合并小型适配器，并将每个适配器分配到正交子空间，从而随着时间的推移增长有效秩。实验表明，BoostLoRA在Qwen2.5-3B的GSM8K和MATH-500等基准测试中取得了最先进的成果，其表现优于超低参数适配器和全量微调。

RESEARCH · CL_10517 · Apr 30 · 10:24

IBM 新推出的 8B Granite 4.1 模型性能超越了旧款 32B MoE 版本

IBM 发布了 Granite 4.1，这是一个专为企业设计的开源语言模型家族，包含三种尺寸（3B、8B 和 30B 参数）。值得注意的是，在 ArenaHard 和 GSM8K 等多项基准测试中，8B 密集模型表现出的性能与之前的 32B MoE 模型相当甚至更优。这一改进归功于 IBM 对数据质量的关注以及涉及 15 万亿 token 和迭代数据混合调整的复杂多阶段训练过程。

RESEARCH · CL_06927 · Apr 27 · 04:00

在代码生成中随时思考

研究人员推出了一种名为“Think-Anywhere”的新型大型语言模型推理机制，它允许模型在生成代码的过程中随时进行思考，而不仅仅是在开始时。这种方法通过在需要时自适应地调用推理，在多个代码生成基准测试中取得了最先进的性能。另外，一项针对小型语言模型（1-3B参数）的研究发现，使用执行反馈进行自我完善可以显著提高代码生成能力，其效果优于复杂的流水线结构。该研究还强调，在流水线中，专门的代码模型比通用模型更有效，并且提前停止对于完善循环至关重要。

RESEARCH · CL_00258 · May 4 · 00:00

大型语言模型通过新技术在代码编辑、生成和错误检测方面取得进展

研究人员正在探索各种方法来增强大型语言模型（LLM）在代码相关任务中的应用。一项研究评估了本地部署的 LLM，如 LLaMA 3.2 和 Mistral，用于 Python 错误检测，发现它们可以识别错误但难以精确定位。另一篇论文介绍了 TreeCoder，一个通过将解码策略和约束视为可优化组件来优化 LLM 代码生成的框架，提高了在 MBPP 和 SQL-Spider 等基准测试上的准确性。此外，宝马（BMW）的一项案例研究表明，微…