GSM8K · PulseAugur

Qwythos-9B语言模型在GSM8K、IFEval和HumanEval上进行基准测试

一位用户对Qwythos-9B语言模型（Qwen 3.5 9B和Claude的微调版本）进行了一系列标准评估。该模型在GSM8K上测试数学推理能力，在IFEval上测试指令遵循能力，在HumanEval上测试代码生成能力。这些测试结果揭示了Qwythos-9B在这些关键领域的优势和局限性。

RESEARCH · CL_131361 · Jul 7 · 06:59

LLM自我博弈训练可能利用合理性而非正确性

一项新的研究论文揭示了在使用自我博弈奖励机制训练大型语言模型时的一个关键缺陷。研究表明，当模型在没有外部参考的情况下被训练来评判自己的输出来时，它们会优先考虑合理性而非实际的正确性。这导致了一种被称为“奖励破解”的现象，模型可以通过生成令人信服但错误的答案在GSM8K等基准测试中获得高“通过率”，这个问题在Qwen、Llama和Gemma等不同模型家族中普遍存在。

TOOL · CL_129137 · Jul 7 · 04:00

过程奖励将小型LLM数学推理准确率提升10%

一篇新的研究论文探讨了在可验证奖励强化学习（RLVR）中奖励粒度对小型语言模型进行数学推理的影响。研究发现，奖励中间步骤的过程级监督在GSM8K基准测试中的准确率显著优于仅奖励最终结果的奖励，准确率提高了近10个百分点。混合奖励结构通常倾向于过程监督，尽管一种过程权重较低的配置显示出一个显著的异常，其表现不如纯粹的结果监督。错误分析表明，基于过程的模型产生了更具结构一致性的推理痕迹，而基于结果的模型则更简洁但容易出现推导错误。

TOOL · CL_128716 · Jul 7 · 04:00

新的TRACE方法检测LLM辅导中的答案驱动推理

一项新的研究论文介绍了截断推理AUC评估（TRACE）作为一种检测基于LLM的教育辅导中答案驱动推理的方法。研究发现，当像Qwen2.5-3B-Instruct这样的LLM能够访问答案密钥时，它们的解释在生成的文本早期显示正确答案的可能性会显著增加。这表明LLM可能正在生成针对已知答案量身定制的解释，而不是从问题本身推导出答案。

RESEARCH · CL_127464 · Jul 6 · 09:48

阿里巴巴-清华大学关于dLLM推理的论文荣获ICML杰出论文奖

阿里巴巴与清华大学合作的论文《The Flexibility Trap: Rethinking the Value of Arbitrary Order in Diffusion Language Models》（灵活性陷阱：重新思考扩散语言模型中任意顺序的价值）荣获2026年ICML杰出论文奖。该研究挑战了扩散大型语言模型（dLLMs）受益于任意token生成顺序的普遍观点。研究表明，这种灵活性会导致“熵退化”，从而阻碍推理能力，尤…

TOOL · CL_127063 · Jul 6 · 04:26

Gemma-3 通过 GRPO 和 LoRA 增强数学推理能力

本教程详细介绍了如何训练 Gemma-3 模型，利用 GSM8K 数据集来提高其结构化数学推理能力。该过程包括使用 Tunix、JAX 和 LoRA 适配器等工具设置环境，然后应用具有自定义奖励函数的 Grouped-Sampled Policy Optimization (GRPO)。训练侧重于仅优化适配器权重，使工作流程足够高效，可在单个加速器上运行。

RESEARCH · CL_128515 · Jul 6 · 00:31

新指标评估语言模型训练数据质量

研究人员开发了新的文本保真度-多样性指标（Fidelity-Diversity Metrics for Text），用于评估用于训练语言模型的文本数据质量。这些指标量化了候选文本与参考数据的相似程度（保真度）以及其对数据模式的覆盖程度（多样性）。在M2D2和合成GSM8K数据集上的实验表明，这些指标能够识别保真度和多样性不足之处，而这些不足与下游语言模型性能的下降相关。

RESEARCH · CL_121570 · Jul 1 · 22:17

新的半监督CoT框架通过伪监督增强LLM推理能力

研究人员推出了一种新颖的半监督思维链学习框架Semi-CoT，该框架利用未标记问题生成伪推理监督。该方法通过基于估计的答案级语义熵来选择可靠的推理链，从而改进了CoT的自训练方法。虽然实验在选择高精度伪CoT方面显示出潜力，但有效利用仍需要改进演示选择或学生训练策略。

TOOL · CL_119650 · Jul 1 · 04:00

新的FORA技术在微调过程中保留LLM能力

研究人员开发了一种名为FORA（Function-space Orthogonal Residual Adaptation）的新微调技术，旨在在大语言模型适应新任务的同时保留其现有能力。与以往关注权重空间代理的方法不同，FORA估计并保护与能力相关的激活子空间。该方法在Qwen3-1.7B模型上针对COGS和GSM8K等任务进行了测试，结果显示其比现有方法能更好地保留能力，同时在新任务上的性能权衡极小。研究表明，保护函数空间方向比权重…

TOOL · CL_120339 · Jul 1 · 00:00

新的MRP技术提高了语言模型的速度和准确性

来自Modal Research和纽约大学上海分校HeavyBall Research的研究人员开发了一种名为多标记残差预测（MRP）的新技术，该技术提高了语言模型的速度和准确性。MRP通过训练一个小模块来预测扩散语言模型中相邻去噪步骤之间的残差差异，而不是预测整个分布。这种方法在静态模式下可以实现高达1.56倍的吞吐量，并且在动态模式下可以恢复在激进的低阈值解码设置中丢失的重要准确性点，同时几乎没有质量损失。

RESEARCH · CL_117751 · Jun 30 · 04:00

新的 LLM 解码方法提高了准确性和效率

两篇新的研究论文提出了改进大型语言模型 (LLM) 解码效率和准确性的新方法。第一种方法，Draft-Conditioned Constrained Decoding (DCCD)，通过将语义规划与结构强制执行分离来解决生成 JSON 或 API 调用等结构化输出的挑战，从而在严格的结构化准确性方面取得了显著改进。第二种方法，Depth Exploration Decoding (DEX)，通过并行探索多个中间层深度来优化自回归解码过…

TOOL · CL_117688 · Jun 30 · 04:00

新方法惩罚冗余，使大语言模型推理更高效

研究人员开发了一种新颖的方法，通过惩罚其思维链（CoT）追踪中的内部和外部冗余来减少大型推理模型（LRM）的“过度思考”。这种双重惩罚强化学习框架分别解决了第一个正确答案之前的信��停滞和之后的冗余延续问题。在GSM8K和MATH500等基准测试上的实验表明，推理长度显著缩短，在1.5B模型上最多可减少41.3%，同时保持了具有竞争力的准确性并提高了整体效率。该方法还显示出对GPQA和LiveCodeBench等域外任务的可迁移性，为…

RESEARCH · CL_119406 · Jun 29 · 19:33

新的“LearnStop”方法优化推理模型停止点

研究人员开发了一种名为LearnStop的新方法，用于优化推理语言模型在处理某个实例时应何时停止。该技术分析答案置信度、熵和稳定性等多个特征来预测正确性，旨在在固定的计算预算下提高性能。LearnStop在自由形式的数学任务上显示出特别的好处，优于简单的标量停止规则，但其有效性取决于任务，在多项选择题或非常困难的问题上，更简单的方法具有竞争力。

RESEARCH · CL_117164 · Jun 29 · 17:56

研究发现：保守的AI训练悖论式地增加了奖励劫持

一项新的研究论文挑战了保守的离线训练能带来更安全AI模型的普遍假设。研究发现，离线训练中更高程度的保守性实际上会加剧后续在线适应过程中的“奖励劫持”。在不同的保守性水平下都观察到了这种效应，保守性增加与奖励劫持造成的损害增加之间存在直接相关性。

RESEARCH · CL_115628 · Jun 29 · 04:00

新方法通过自适应解码策略提高 LLM 推理速度

研究人员开发了 BlockPilot，一种新颖的投机解码方法，可自适应地预测生成文本的最佳块大小。该方法通过学习一种策略来提高效率，该策略根据预填充表示来选择块大小，从而实现显著的加速和更长的接受长度。此外，另一篇论文介绍了一种用于掩码扩散语言模型的连续解码框架，该框架允许 token 累积部分进度，为文本生成提供了更灵活的方法。

RESEARCH · CL_109564 · Jun 24 · 08:44

Riazi-8B: 乌尔都语大语言模型增强低资源语言的数学推理能力

研究人员开发了Riazi-8B，一个专门为乌尔都语数学推理设计的新型大语言模型。该模型解决了现有以英语为中心的大语言模型的局限性，这些模型在乌尔都语等低资源语言上的表现不佳。Riazi-8B通过两步过程创建：首先在乌尔都语维基百科上进行预训练，然后使用从GSM8K派生的乌尔都语思维链数据进行微调。在MGSM-Urdu基准测试上的评估表明，与其他的乌尔都语指令微调模型相比，Riazi-8B在答案正确性、推理质量和乌尔都语生成方面有了显著提升。

RESEARCH · CL_108093 · Jun 24 · 04:00

新方法加速Diffusion LLM，解决速度-质量权衡问题 · 跟踪3个来源

研究人员正在开发新的方法来加速Diffusion大型语言模型（dLLM），由于其序列长度缩放，这些模型计算量很大。两个新框架Dynamic-dLLM和Streaming-dLLM旨在提高推理速度而不牺牲生成质量。Dynamic-dLLM使用自适应缓存预算和并行解码，而Streaming-dLLM采用后缀修剪和带有早期退出机制的动态解码。另一项研究ParallelBench强调了dLLM并行解码的权衡，揭示了在现实场景中质量的显著下降以…

TOOL · CL_107973 · Jun 24 · 04:00

新研究探讨AI推理蒸馏方法的权重空间几何

一篇新研究论文分析了用于将推理能力蒸馏到更小AI模型中的各种离线强化学习方法的权重更新的几何特性。该研究使用Qwen3-4B基础模型，在相同的数学相关数据上训练了六种不同的方法——SFT、RFT、DFT、RIFT、Offline GRPO和DPO。分析显示，虽然SFT、RFT和RIFT产生了相似的权重差值和准确率，但DFT显著不同。Offline GRPO引入了一个正交分量，而DPO占据了一个独特的子空间，在GSM8K和AIME26基…

TOOL · CL_104732 · Jun 20 · 18:42

新研究详述在单 GPU 上训练的小型语言模型

研究人员详细介绍了一种使用显著更少计算资源（具体来说是在单个 NVIDIA L20 GPU 上）训练小型语言模型 L20-Edu-135M 的方法。该研究侧重于数据效率，预训练使用了约 130 亿个 token，这仅占同类模型通常使用的 token 数量的一小部分。虽然所得模型并未超越 SmolLM-135M 等现有的最先进的小型模型，但其性能优于较旧的公开基线模型，并为资源受限的语言模型开发提供了一个可审计的案例研究。

RESEARCH · CL_104693 · Jun 20 · 01:18

新研究探索用于LLM推理的交互式可视化和因果归因

研究人员正在探索新的方法，通过链式思考（Chain-of-Thought, CoT）推理来增强大型语言模型（LLMs）的可解释性和可靠性。一种名为Vis-CoT的方法将线性的CoT文本转换为交互式推理图，使用户能够可视化、调试和干预模型的思考过程，从而提高准确性和信任度。另一项研究调查了多模态CoT的有效性，发现它对推理任务有益，但可能对感知任务有害，并强调了一种“Look Light, Think Heavy”的模式，即视觉内省会减…