实体 CruxEval

CruxEval

PulseAugur coverage of CruxEval — every cluster mentioning CruxEval across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 4

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_141553 · Jul 14 · 04:00

新论文发现：大型语言模型在长代码上下文中存在语义回忆障碍

一篇新发表在arXiv上的论文探讨了大型语言模型（LLMs）在理解长代码上下文方面的局限性。研究人员发现，尽管LLMs在词汇回忆（逐字代码检索）方面表现出色，但当代码位于长输入的中间时，其语义回忆（理解操作语义）能力会显著下降。该研究引入了一个名为“语义回忆敏感性”的指标，并提出了一个名为SemTrace的新任务来更好地评估此能力。研究结果表明，当前的基准测试可能高估了LLMs的代码理解能力。
TOOL · CL_40817 · May 19 · 10:31

量化影响大语言模型性能，更大模型表现出更强的韧性

一篇新的研究论文探讨了量化对大语言模型性能的影响，考察了从2位到6位精度的模型。研究发现，虽然更高的精度通常能带来更好的性能，但激进的量化往往能保留可接受的准确性，尽管一些模型会出现显著的性能下降。更大的模型往往对量化更具韧性，但中等规模的模型（70亿至90亿参数）在效率和性能之间提供了良好的平衡。
TOOL · CL_29426 · May 12 · 10:36

新框架 StepCodeReasoner 通过执行跟踪提升代码推理能力

研究人员开发了 StepCodeReasoner，一个旨在通过关注中间执行状态而非仅仅最终输出来改进代码推理的新框架。该方法使用结构化打印语句创建执行跟踪锚点，训练模型预测每一步的运行时状态。该框架还包含一种新颖的强化学习算法 Bi-Level GRPO，用于在执行路径之间以及路径内部进行更好的信用分配。实验表明，StepCodeReasoner 在代码推理基准测试中取得了最先进的性能，其 7B 模型超越了 GPT-4o 和之前的 C…
RESEARCH · CL_07050 · Apr 28 · 04:00

研究人员生成可验证的代码推理数据以提升LLM性能

研究人员开发了一种新方法，通过检测代码以捕获执行跟踪来生成可验证的代码推理思维链（CoT）解释。该流程将这些跟踪叙述成自然语言，并逐一将叙述与原始跟踪进行交叉检查以确保准确性。在经过验证的数据上微调模型，在代码推理和生成方面取得了显著的改进，在LiveCodeBench-Exec上的增幅高达+26.6。