LiveCodeBench · PulseAugur

Ollama 云模型：DeepSeek V4 Flash 相较于 V4 Pro 节省大量成本

近期对 Ollama 云模型的分析显示，基于每次任务的 GPU 计算使用量而非仅 token 数量，存在显著的成本差异。研究发现，DeepSeek V4 Flash 尽管活跃参数较少，但在编码基准测试上的表现与 DeepSeek V4 Pro 相当，而计算量却减少了约 73%。这表明为 V4 Pro 等更高级别模型支付费用执行常规任务的用户可能严重支出过高。分析强调，每个 token 的活跃参数和思考 token 开销是 Ollama…

TOOL · CL_123211 · Jul 2 · 16:25

新的强化学习算法将问题分解，降低大型语言模型成本

研究人员推出了一种新颖的强化学习算法 DecompRL，旨在增强大型语言模型（LLMs）的解决问题能力。DecompRL 不依赖于广泛的采样或多样性优化，而是专注于将复杂问题分解为更小、更易于管理子函数。该算法学习生成和重组这些模块的代码，显著降低了寻找解决方案相关的计算成本。这种方法在 LiveCodeBench 和 CodeContests 等基准测试中表现出色，使大型语言模型能够解决以前无法解决的问题。

TOOL · CL_121474 · Jul 2 · 04:00

新基准 AlgoBench 测试 LLM 的算法推理能力，超越记忆

研究人员开发了 AlgoBench，一个旨在评估代码生成模型算法推理能力的新框架。与可能因训练数据暴露而受损的传统基准测试不同，AlgoBench 通过转换现有的竞争性编程问题来自动创建新颖的算法问题。这种方法确保了参考算法在新变体上失败，迫使模型展示真正的适应性而非记忆。该框架还引入了面向复杂性的指标，不仅评估功能正确性，还评估渐近效率，揭示了许多模型在算法适应性和高效解决方案方面存在困难。

TOOL · CL_117688 · Jun 30 · 04:00

新方法惩罚冗余，使大语言模型推理更高效

研究人员开发了一种新颖的方法，通过惩罚其思维链（CoT）追踪中的内部和外部冗余来减少大型推理模型（LRM）的“过度思考”。这种双重惩罚强化学习框架分别解决了第一个正确答案之前的信��停滞和之后的冗余延续问题。在GSM8K和MATH500等基准测试上的实验表明，推理长度显著缩短，在1.5B模型上最多可减少41.3%，同时保持了具有竞争力的准确性并提高了整体效率。该方法还显示出对GPQA和LiveCodeBench等域外任务的可迁移性，为…

SIGNIFICANT · CL_113454 · Jun 27 · 12:13

Sakana AI 发布 Fugu，一个匹配受限模型的多智能体系统

Sakana AI 推出了 Fugu，一个多智能体系统，它充当 LLM 池的协调器，可通过单个 API 访问。该系统有两个版本：Fugu，基于 TRINITY 构建；Fugu-Ultra，基于 Conductor 构建。Fugu-Ultra 已展示出强大的性能，据报道在 GPQA-Diamond 和 LiveCodeBench 等多个基准测试中，其性能可与 Anthropic 的 Mythos 和 Fable 5 等受限模型相媲美或超…

TOOL · CL_108106 · Jun 24 · 04:00

Sakana Fugu 编排器模型结合 LLM 以实现集体智能

研究人员开发了 Sakana Fugu，这是一系列编排器模型，旨在将多个大型语言模型 (LLM) 的专业能力结合成一个集体智能系统。这些模型本身充当语言模型，理解用户查询并动态创建代理脚手架来解决它们。这种方法使 Fugu 能够超越任何单一 LLM 代理的性能，在 SWE-Bench Pro 和 GPQA-Diamond 等具有挑战性的基准测试中取得最先进的成果。该项目发布了两个模型：Fugu（用于平衡性能和延迟）和 Fugu-Ult…

RESEARCH · CL_104766 · Jun 20 · 00:00

新的解码策略绕过大型语言模型对齐税，以获得更好的推理能力

研究人员引入了一种名为“置信解码”的新型解码策略，旨在减轻大型语言模型中的“对齐税”。当大型语言模型经过对齐微调后的最终层会扰乱精炼的推理，使其倾向于通用或偏好对齐的标记时，就会出现这种税。置信解码通过熵引导的反向搜索动态选择最可靠的近最终层，从而绕过这些最终层。在各种大型语言模型上的实验表明，在 GPQA-Diamond 和 Omni-MATH 等推理基准上取得了显著的改进，而计算开销却很小。

RESEARCH · CL_99947 · Jun 18 · 00:00

新的 Multi-LCB 基准测试跨越 12 种编程语言对 LLM 进行测试

研究人员推出了 Multi-LCB，这是一个旨在评估大型语言模型 (LLM) 在十二种编程语言中的代码生成能力的新基准。该基准扩展了现有的仅支持 Python 的 LiveCodeBench (LCB) 的功能。新基准将 LCB 的 Python 任务转换为其他语言中的等效任务，同时保持了污染控制和评估协议。使用 Multi-LCB 对 24 个 LLM 进行的初步评估揭示了显著的 Python 过拟合、特定语言的污染问题以及不同语言…

SIGNIFICANT · CL_95036 · Jun 16 · 14:50

SubQ 发布 SubQ 1.1 Small，拥有 1200 万 token 上下文和稀疏注意力

SubQ 发布了其 SubQ 1.1 Small 模型，该模型采用了一种新的亚二次稀疏注意力（SSA）架构，旨在克服传统注意力机制的二次方扩展限制。这种新架构显著降低了计算需求，能够处理更长的上下文。在“针尖麦芒”测试中，该模型在高达 1200 万 token 的上下文长度下表现出近乎完美的检索能力，并在通用知识和编码基准测试中表现强劲，同时所需的计算量远低于密集注意力和 FlashAttention-2。

RESEARCH · CL_93485 · Jun 16 · 00:00

新的LLM技术通过迭代改进和优化循环增强推理能力 · 跟踪5个来源

研究人员开发了新的方法，通过测试时扩展来提高大型语言模型（LLM）的推理能力。REVES框架使用两阶段迭代过程来增强训练数据和优化策略，重点关注从中间的“接近但未命中”的答案中学习。另外，LoopCoder-v2探索了其Transformer架构中的最佳循环次数，发现两次循环在改进收益和计算成本之间取得了最佳平衡，更多的循环会导致收益递减。另一种方法是多序列验证器（MSV），它通过改进验证器校准来提高并行测试时扩展的效率，从而更好地选…

RESEARCH · CL_90904 · Jun 12 · 15:06

Qwen3-4B-Instruct-2507隐藏状态揭示代码正确性

研究人员调查了Qwen3-4B-Instruct-2507大型语言模型的隐藏状态中是否可以识别代码的正确性。他们对LiveCodeBench数据集的研究表明，即使在考虑了提示长度后，代码的正确性也可以从提示-最终隐藏状态中以高精度线性解码。此外，模型修复失败代码片段的尝试显示出隐藏状态的可检测变化，尽管这一信号被发现是修复上下文的相关因素，而不是孤立的理解特征。

TOOL · CL_84598 · Jun 11 · 03:25

DeepSeek V4 在编码方面表现出色，但在通用推理方面滞后

DeepSeek V4 的编码性能异常出色，在 SWE-bench 和 LiveCodeBench 等基准测试中取得了最高分。然而，CAISI 的评估表明，其通用推理和智能体能力明显落后于前沿模型，大约滞后八个月。这种差异凸显了针对编码任务的专门优化可能无法转化为更广泛的 AI 能力，并且在使用量化或小型模型版本进行本地部署时，性能差距可能会进一步扩大。

RESEARCH · CL_83090 · Jun 10 · 10:42

AI模型在7项能力上的对比：GPT-5.5、Claude Opus 4.8领跑

对八款AI模型在七个能力维度上的对比分析显示，没有一款是全能冠军。GPT-5.5在代理任务和长上下文方面表现出色，而Claude Opus 4.8在编码和通用知识方面领先。Gemini 3.5 Flash提供了强大的代理价值和多模态能力，DeepSeek V4 Pro则在竞技编程和数学方面展现出实力。

TOOL · CL_68403 · Jun 3 · 04:00

CodeHacker 生成对抗性测试用例以查找代码漏洞

研究人员开发了 CodeHacker，这是一个自动化的框架，旨在为编程竞赛解决方案生成对抗性测试用例。该系统旨在识别代码提交中可能被标准测试方法遗漏的漏洞。CodeHacker 利用压力测试和反哈希攻击等策略来揭示弱点，其生成的测试用例可以提高为代码生成训练的 AI 模型的性能。

RESEARCH · CL_68146 · Jun 2 · 16:29

FLARE框架通过细粒度错误检测改进LLM代码生成

研究人员开发了FLARE，一个旨在提高大型语言模型生成代码准确性的新框架。FLARE利用一个轻量级的诊断模型来精确定位可能包含错误的具体代码行，提供比现有方法更精确的反馈。实验表明，FLARE的性能显著优于当前基线，根据搜索策略的不同，改进幅度在1.72%到8.50%之间。

RESEARCH · CL_65553 · May 31 · 00:00

AI研究引入新的基准演化和智能体自我重构方法

两篇新研究论文介绍了推进AI能力的新颖方法。BenchEvolver 专注于通过演化现有问题来创建更具挑战性的编码基准，旨在克服基准饱和并改进模型训练。ToolSelf 提出了一种用于LLM智能体的运行时自我重构范式，允许它们在任务执行期间动态调整其工具和策略，以增强泛化能力和性能。

TOOL · CL_44823 · May 22 · 04:00

New STAND technique slashes LLM reasoning latency by 65%

研究人员开发了 STAND（STochastic Adaptive N-gram Drafting），一种新的无模型推测解码技术，旨在加速语言模型推理。该方法利用推理轨迹中的冗余来更有效地预测 token，而无需单独的草稿模型。STAND 在各种推理任务和模型上已证明可将推理延迟减少 60-65%，同时保持准确性并优于现有的推测解码方法。

TOOL · CL_30793 · May 13 · 06:15

LLM学会主动检索外部信息以更好地适应任务

研究人员开发了一种新方法来适应大型语言模型（LLM），使其能够主动从维基百科和网络浏览器等外部来源检索信息。这种被称为“主动信息检索”的方法被整合到一个基于搜索的训练程序中，该程序可以维护和修剪候选上下文。该方法在翻译、健康场景和推理任务等各种领域都显示出显著的性能提升，同时被证明具有数据效率高且可泛化到不同模型的特点。

TOOL · CL_29426 · May 12 · 10:36

新框架 StepCodeReasoner 通过执行跟踪提升代码推理能力

研究人员开发了 StepCodeReasoner，一个旨在通过关注中间执行状态而非仅仅最终输出来改进代码推理的新框架。该方法使用结构化打印语句创建执行跟踪锚点，训练模型预测每一步的运行时状态。该框架还包含一种新颖的强化学习算法 Bi-Level GRPO，用于在执行路径之间以及路径内部进行更好的信用分配。实验表明，StepCodeReasoner 在代码推理基准测试中取得了最先进的性能，其 7B 模型超越了 GPT-4o 和之前的 C…

TOOL · CL_20541 · May 7 · 04:00

新的 Conductor 模型学会编排大型语言模型以获得更好性能

研究人员开发了一个名为“Conductor”的模型，该模型通过强化学习进行训练，以协调多个大型语言模型。该 Conductor 模型学会建立通信路径并为工作模型制定具体指令，从而优化它们的协作。一个拥有 70 亿参数的 Conductor 在 LiveCodeBench 和 GPQA 等基准测试中表现出色，超越了单个模型，并取得了最先进的成果。该系统可以适应各种开源和闭源代理，甚至使用自身作为工作代理以实现递归改进。