实体 Large Reasoning Models

Large Reasoning Models

PulseAugur coverage of Large Reasoning Models — every cluster mentioning Large Reasoning Models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 26

发布 · 30天

90 天内 0

论文 · 30天

90 天内 26

层级分布 · 90 天

主题

论文 26
模型发布 10
安全 9
基础设施 4
其他 4
政策 1

时间线

2026-05-08 research_milestone A research paper demonstrates that frontier Large Reasoning Models (LRMs) exhibit behavioral and brain alignment with human game learners. 来源

情绪 · 30 天

6 天有情绪数据

最近 · 第 1/2 页 · 共 26 条

TOOL · CL_154078 · Jul 21 · 04:00

新的PUMA框架诊断并纠正大型语言模型的推理错误

研究人员推出了一种新颖的PUMA框架，旨在诊断和解决大型推理模型（LRMs）中的推理病理。PUMA基于新提出的相位-动量对齐假说（Phase-Momentum Alignment Hypothesis），该假说认为准确的推理依赖于几何动量和不确定性消解之间的同步交互。该框架利用认知能量模型（Cognitive-Energy Model）量化这些动态，并采用分层诊断架构来区分主动探索和被动停滞，从而实现自适应干预。实验表明，PUMA在各…
RESEARCH · CL_131328 · Jul 7 · 05:34

新的MARGO框架解决了大型推理模型中的事实幻觉问题

研究人员开发了MARGO，一个新颖的强化学习框架，旨在减轻大型推理模型（LRMs）中的事实幻觉。MARGO解决了“思维诱导幻觉”问题，即显式推理步骤有时会导致错误答案。通过比较思维和非思维轨迹，MARGO识别显式思维是否增加了事实价值，从而抑制无益的推理，同时保留有益的思维过程。实验表明，MARGO在QA基准测试中提高了事实可靠性，而不会损害数学任务上的通用推理能力。
TOOL · CL_111705 · Jun 26 · 04:00

新的HauntAttack方法利用大型AI模型的推理漏洞

研究人员开发了HauntAttack，这是一个旨在利用大型推理模型（LRM）中漏洞的新框架。这种攻击方法将有害指令嵌入基于推理的问题中，引导模型产生不安全的输出。在对11个LRM的测试中，HauntAttack的平均成功率超过70%，与先前的方法相比有了显著提高，并凸显了在AI开发中平衡高级推理能力与强大安全措施的持续挑战。
RESEARCH · CL_111581 · Jun 25 · 12:59

新的ReaORE框架通过推理增强开放关系抽取

研究人员推出了一种新颖的ReaORE框架，旨在通过采用粗粒度到细粒度的推理方法来改进开放关系抽取（OpenRE）。该方法解决了现有技术（如聚类）在泛化和标签生成方面的局限性，以及直接使用LLM方法缺乏区分相似关系的能力等问题。ReaORE的两阶段过程包括基于多方面推理和嵌入相似性的关系过滤，然后进行细粒度的比较推理以进行关系预测。在标准数据集上的实验表明，ReaORE在抽取未见过关系方面优于当前基线。
RESEARCH · CL_109180 · Jun 24 · 21:48

研究发现，大型语言模型和人类在解决问题策略上存在分歧 · 已追踪 7 个来源

新研究表明，尽管人类和大型语言模型（LLMs）都会根据问题的难度调整解决时间，但其内部机制却存在显著差异。人类倾向于放弃那些他们认为困难或可能出错的问题，而大型语言模型则会在更难的问题上花费更多的计算资源，但这常常导致错误。这种“审议分配”上的分歧表明，大型语言模型在困难任务上延长处理时间源于不确定性，而非像人类那样进行战略性投入。
TOOL · CL_108013 · Jun 24 · 04:00

新的MERA框架提高了LLM的推理效率和准确性

研究人员开发了MERA，一个新颖的元认知推理框架，旨在提高大型推理模型（LRMs）的效率和准确性。MERA通过将推理过程与控制机制解耦来解决LRMs中的“过度思考”问题，使模型能够更好地决定何时停止生成文本。该框架利用接管式管道创建监督数据，并采用控制段策略优化（CSPO）进行训练，最终实现更具成本效益和更精确的推理。
TOOL · CL_117120 · Jun 22 · 00:00

新框架可视化和审计大型推理模型

ReasoningLens 是一个新开源框架，旨在解决大型推理模型带来的透明度挑战。它提供分层可视化和诊断审计功能，以分析复杂的推理链。该框架将追踪信息构建成交互式层级结构，使用代理审计器进行错误检测和验证，并合成推理档案以识别模型弱点。
TOOL · CL_93648 · Jun 16 · 04:00

新的 ReQAT 框架使 4 位量化 LLM 能够匹配全精度推理

研究人员开发了 ReQAT，一种新颖的训练框架，旨在使大型推理模型 (LRM) 即使在量化为 4 位浮点格式时也能实现全精度推理准确性。现有的量化方法在处理数字和运算符等低熵标记时遇到困难，导致推理能力下降。ReQAT 通过 Trace-Aligned QAT、选择性熵最小化和 Q-FIT 初始化来解决此问题，这些方法共同关注关键决策并稳定训练。这种方法不仅恢复了标准微调的准确性，甚至超越了它，同时显著提高了推理速度并降低了硬件要求。
RESEARCH · CL_93541 · Jun 16 · 04:00

新的arXiv论文探讨LLM的推理和摘要评估

两篇新的arXiv论文探讨了大型语言模型（LLM）在抽象摘要方面的有效性。第一篇论文介绍了OmniCSEval，这是一个旨在跨不同场景、上下文长度和推理能力评估LLM的综合基准，并使用了一个新颖的事实核查框架。第二篇论文研究了推理策略对摘要质量和事实忠实度的影响，发现明确的推理有时会损害事实基础，并且增加LLM的内部推理预算并不总能提高性能。
RESEARCH · CL_86644 · Jun 11 · 11:47

ReSET 方法提升 NVFP4 推理的准确性和速度

研究人员开发了 ReSET，这是一种在 NVFP4 低精度推理中使用时，提高大型推理模型 (LRM) 准确性和效率的新方法。ReSET 通过采用步感知温度缩放来解决量化引起的准确性下降问题，该缩放根据 token 和步级别的熵调整解码温度。此外，还引入了一个新的 CUDA 核心内核来加速低延迟的自回归解码，与现有方法相比实现了显著的加速。
TOOL · CL_111007 · Jun 9 · 00:00

新的“行为预测器”更准确地预测 AI 模型行为

研究人员开发了“行为预测器”，这是一种预测大型推理模型 (LRM) 未来行为的新方法。这些预测器在 LRM 输出的单一轨迹上进行训练，无需传统的解释。在预测 LRM 在诸如答案重复和输入敏感性等任务上的行为方面，该方法比人类读者和 GPT-5.4 和 Claude Opus-4.6 等现有模型更准确，同时计算效率也显著提高。
TOOL · CL_65865 · Jun 2 · 04:00

大型推理模型在中断和动态上下文中表现不佳

一项新的研究论文探讨了大型推理模型（LRM）在面对动态场景时的鲁棒性，挑战了静态环境的假设。研究发现，LRM在静态评估中表现良好，但在推理过程中被中断或上下文发生变化时，性能会显著下降高达60%。研究人员发现了新颖的故障模式，例如推理泄露、时间压力下的恐慌响应以及在整合更新信息时的自我怀疑。
TOOL · CL_62824 · Jun 1 · 04:00

新方法通过控制大型语言模型（LLM）的内部推理来增强其隐私性

研究人员开发了一种新方法，可以防止大型推理模型（LRM）泄露其内部思考过程中的敏感信息。该方法侧重于提高模型在整个推理过程中遵循指令的能力，从而减少隐私泄露。这通过一个监督微调数据集和一个称为分阶段解码（Staged Decoding）的解码策略来实现，该策略将推理过程生成与最终答案生成分开。评估显示，在遵循指令和隐私方面都有显著改进，尽管观察到任务效用有所权衡。
TOOL · CL_62714 · Jun 1 · 04:00

新的SLAT框架修剪大型语言模型中的冗余推理

研究人员开发了SLAT，一个旨在提高大型语言模型思维链推理效率的新框架。SLAT识别并修剪推理链中不贡献答案正确性的冗余段，这是导致过度思考和高计算成本的常见问题。通过自适应地抑制这些低效用段，SLAT可以在保持准确性的同时显著缩短推理长度，从而在效率和性能之间建立更好的权衡。
TOOL · CL_58834 · May 29 · 04:00

EcoTab框架提升大模型表格推理效率

研究人员推出了一种名为EcoTab的新型框架，旨在提高大型推理模型（LRMs）处理表格数据时的效率。现有的分步路由方法难以区分表格特定标记和自然语言推理标记，导致路由决策效率低下。EcoTab通过分别估计表格标记和文本标记的不确定性，将其映射到失败风险，并利用这种组合风险评估将推理步骤动态分配给适当的模型，从而平衡准确性和计算成本来解决这一问题。
TOOL · CL_58624 · May 29 · 04:00

新的RoRo框架通过评分卡引导的奖励来改进AI模型路由

研究人员开发了RoRo，一个旨在通过评分卡引导的过程奖励系统来提高大型推理模型（LRMs）效率的新框架。该方法解决了现有方法仅依赖最终结果奖励的局限性，而这些方法不评估中间路由决策的质量。RoRo训练一个“Rubricor”来创建查询特定的评估评分卡，并训练一个“Judge”来对路由轨迹进行评分，利用这些来生成过程奖励，并将其与结果奖励结合起来以优化路由策略。在五个推理基准上的实验表明，RoRo优于现有基线，提供了更高的准确性和成本效益。
TOOL · CL_56064 · May 28 · 04:00

新的EAPO方法增强了AI在开放式问答中的策略优化能力

研究人员开发了一种熵驱动自适应策略优化（EAPO）方法，以改进开放式问答的强化学习。与使用固定正负样本权重的先前方法不同，EAPO根据策略熵自适应地调整这些权重。该方法旨在平衡响应的多样性和稳定性，特别是在训练过程中缓解熵崩溃问题。在医学问答数据集上的实验表明，EAPO的性能显著优于固定权重基线。
TOOL · CL_50842 · May 26 · 04:00

新的AE-CoT框架利用进化推理增强LLM越狱

研究人员开发了一种名为AE-CoT的自适应进化框架来破解大型推理模型（LRM）。该方法将有害目标重写为温和的提示，并将其分解为推理片段以创建越狱候选。然后，该框架使用具有交叉和变异策略的进化搜索来扩展候选多样性，并使用独立的评分模型评估有害性以增强破坏性生成。实验表明，AE-CoT在多个模型和数据集上优于现有的越狱方法。
RESEARCH · CL_41762 · May 20 · 09:10

Strategy-Induct框架在无标注答案的情况下生成LLM指令

研究人员开发了Strategy-Induct，一个用于为大型语言模型（LLMs）生成有效任务级指令的新框架。该方法仅从示例问题中推导出指令，无需获取成本高昂的标注答案。Strategy-Induct首先提示LLMs为每个问题生成推理策略，然后利用这些策略-问题对来归纳出指导性的任务指令。实验表明，该方法在仅有问题的设置下优于现有方法，并暗示通过将LLMs与大型推理模型（Large Reasoning Models）结合可能带来进一步的改进。
TOOL · CL_41182 · May 19 · 07:36

新的RL越狱方法利用LRM注意力模式

研究人员开发了一种专门针对大型推理模型（LRM）的新型越狱方法，LRM以其逐步解决问题的能力而闻名。该方法利用强化学习，并将模型的注意力模式纳入奖励函数，因为研究表明，当注意力被误导时，越狱的成功率更高。这种方法通过多样化的说服策略得到增强，显著提高了在各种基准和模型上的攻击成功率。

新的PUMA框架诊断并纠正大型语言模型的推理错误

新的MARGO框架解决了大型推理模型中的事实幻觉问题

新的HauntAttack方法利用大型AI模型的推理漏洞

新的ReaORE框架通过推理增强开放关系抽取

研究发现，大型语言模型和人类在解决问题策略上存在分歧 · 已追踪 7 个来源

新的MERA框架提高了LLM的推理效率和准确性

新框架可视化和审计大型推理模型

新的 ReQAT 框架使 4 位量化 LLM 能够匹配全精度推理

新的arXiv论文探讨LLM的推理和摘要评估

ReSET 方法提升 NVFP4 推理的准确性和速度

新的“行为预测器”更准确地预测 AI 模型行为

大型推理模型在中断和动态上下文中表现不佳

新方法通过控制大型语言模型（LLM）的内部推理来增强其隐私性

新的SLAT框架修剪大型语言模型中的冗余推理

EcoTab框架提升大模型表格推理效率

新的RoRo框架通过评分卡引导的奖励来改进AI模型路由

新的EAPO方法增强了AI在开放式问答中的策略优化能力

新的AE-CoT框架利用进化推理增强LLM越狱

Strategy-Induct框架在无标注答案的情况下生成LLM指令

新的RL越狱方法利用LRM注意力模式