Chain Of Thought · PulseAugur

ARGUS系统使用对抗性裁判进行策略自适应广告治理

研究人员开发了ARGUS，一个旨在使在线广告治理适应不断变化的监管政策的新系统。该系统采用了一个三阶段框架，包括策略播种、使用检察官-辩护人-裁判架构的对抗性标签纠正以及潜在知识发现。ARGUS利用RAG增强的策略知识和思维链合成来同步其推理与新指令，在各种数据集上表现优于传统的微调方法。

RESEARCH · CL_11793 · May 1 · 04:00

OmniDrive-R1 通过强化驱动的视觉基础增强自动驾驶 VLMs

研究人员推出 OmniDrive-R1，一个用于自动驾驶的新型框架，它使用交错多模态思维链 (iMCoT) 机制整合感知和推理。该方法通过采用强化驱动的视觉基础能力，解决了视觉语言模型中常见的对象幻觉问题。该系统利用独特的无标注训练流程和 Clip-GRPO 算法，该算法在不需要密集定位标签的情况下生成基础奖励。实验表明，与基线模型相比，OmniDrive-R1 显著提高了推理分数和准确性。

RESEARCH · CL_11775 · May 1 · 04:00

新的基准显示大型语言模型在阿拉伯语和符号金融推理方面存在困难

研究人员推出了 SAHM，这是一个旨在评估大型语言模型阿拉伯语金融和符合伊斯兰教法（Shari'ah）的推理能力的新基准。该基准包含七个任务中超过 14,000 个专家验证的实例，填补了阿拉伯语金融自然语言处理领域的重大空白。对 20 个大型语言模型的评估显示，虽然模型在识别任务上表现良好，但它们的金融推理能力，特别是在事件-原因分析方面，则明显较弱。另外，FinChain 基准的开发旨在评估金融领域中可验证的思维链推理，使用参数化模…

TOOL · CL_10793 · Apr 30 · 15:35

AI摘要器泄露思维链；提供30行代码修复方案

一位开发者发现了一个AI摘要工具中的漏洞，该漏洞导致该工具无意中暴露其内部推理过程，即思维链。该问题源于该工具处理用户提示的方式，从而导致其中间步骤的暴露。已提出一个简单的30行代码修改来纠正此信息泄露。

RESEARCH · CL_11383 · Apr 30 · 08:57

新的SPUR基准揭示AI模型在科学图像解读方面存在困难

研究人员推出了SPUR基准，旨在评估多模态大语言模型（MLLMs）解读科学实验图像的能力。SPUR包含超过4000个源自专家策展图像的问答对，侧重于图像面板内的细粒度感知、多个面板之间的关系理解以及专家级推理。对20个MLLM和四种思维链方法的评估表明，当前模型尚不具备“科学AI”应用所需的复杂解读能力。

RESEARCH · CL_08608 · Apr 29 · 04:00

新的 VLA 模型 LaST-R1 和 DIAL 通过高级推理增强机器人操作

两篇新的研究论文介绍了用于机器人操作的先进视觉-语言-动作 (VLA) 模型。LaST-R1 将潜在的思维链推理与强化学习相结合，以提高适应性和泛化能力，在 LIBERO 基准测试中取得了 99.8% 的成功率。DIAL 通过潜在世界模型将高级意图与低级动作执行解耦，使其能够以少 10 倍的演示进行学习，并泛化到现实世界任务。

COMMENTARY · CL_07342 · Apr 28 · 06:46

潜在推理模型可能提供更安全、更可解释的AI

LessWrong 上的一篇文章探讨了潜在推理模型（LRMs）在AI安全和可解释性方面的潜在优势。这些模型在内部激活中执行思维链（CoT）推理，而不是生成显式文本，这可能提供一种更压缩、可能更易于理解的思维过程表示。作者认为，通过将整个想法编码到单个潜在标记中，LRMs可能比传统的基于文本的CoT更容易解释，特别是随着AI系统扩展到变革性水平。然而，该文章承认关于多义标记的可解释性存在不确定性，这很可能在如此压缩的表示中出现。

RESEARCH · CL_07062 · Apr 28 · 04:00

GPT-5通过思维链提示在代码反混淆方面表现出改进

一篇新论文探讨了使用思维链（CoT）提示来提高大型语言模型反混淆代码的能力，特别关注控制流混淆技术。该研究评估了五种最先进的模型，发现CoT提示显著增强了控制流图的结构恢复和程序语义的保持。GPT5表现出最强的性能，与零样本提示相比，在重构和语义保持方面取得了显著的进步，这表明CoT引导的LLM可以辅助逆向工程任务。

RESEARCH · CL_07050 · Apr 28 · 04:00

研究人员生成可验证的代码推理数据以提升LLM性能

研究人员开发了一种新方法，通过检测代码以捕获执行跟踪来生成可验证的代码推理思维链（CoT）解释。该流程将这些跟踪叙述成自然语言，并逐一将叙述与原始跟踪进行交叉检查以确保准确性。在经过验证的数据上微调模型，在代码推理和生成方面取得了显著的改进，在LiveCodeBench-Exec上的增幅高达+26.6。

RESEARCH · CL_06627 · Apr 28 · 04:00

新研究揭示大型语言模型中的隐藏状态包含解决任务的信息

研究人员调查了语言模型在思维链（CoT）推理过程中隐藏状态中编码的信息。通过在GSM8K数据集上使用激活修复技术，他们发现单个CoT token包含与任务相关的信息，这些信息在转移到直接回答生成过程中时可以显著提高回答的准确性。这种解决任务的信息在正确的CoT运行中更为集中，并且在token之间分布不均，在推理过程的早期以及模型的中间到后期层中出现。研究还表明，语言token对于引导正确推理更为关键，而数学token主要编码与答案接近的内容。

RESEARCH · CL_06601 · Apr 28 · 04:00

研究人员使用 SHAP 和 RL 改进机器人泛化性和依从性推理

研究人员开发了一个使用 SHapley Additive exPlanations (SHAP) 来分析和改进机器人强化学习 (RL) 算法泛化性的框架。该方法量化了不同算法和超参数配置对泛化差距的影响，为选择最优设置提供了理论基础和实践指导。另外，一个名为 Affordance-R1 的新模型将强化学习与思维链推理相结合，以增强多模态大语言模型中的依从性基础，展示了强大的零样本泛化能力和涌现式推理能力。

RESEARCH · CL_06531 · Apr 28 · 04:00

OmniVTG数据集和CoT范式增强了开放世界视频时序定位

研究人员推出了OmniVTG，这是一个大规模数据集和训练范式，旨在改进多模态大语言模型（MLLMs）的开放世界视频时序定位（VTG）。该数据集采用新颖的流程来识别和收集包含代表性不足概念的视频，并采用以字幕为中心的策略进行高质量标注。此外，还提出了一种自校正思维链（CoT）训练方法，该方法利用MLLMs的理解能力来优化预测，在现有基准和新的OmniVTG数据集上均取得了最先进的性能。

RESEARCH · CL_06618 · Apr 27 · 22:43

小型语言模型通过预算感知指导和提示消歧实现更好的推理

研究人员正在探索在不增加模型规模或计算成本的情况下增强小型语言模型（SLM）推理能力的方法。一种方法侧重于推理前的提示消歧，识别并解决用户提示中的语义风险，以提高大型语言模型对关键标记的注意力，仅花费0.02美元即可带来2.5个点的性能提升。另一种策略是双轨CoT（Dual-Track CoT），旨在通过采用预算感知分步指导和控制冗余步骤，使小型语言模型能够在严格的标记和计算预算内可靠地执行多步推理。

RESEARCH · CL_06222 · Apr 27 · 17:43

新研究探索使用思维链监督从多位AI思考者那里学习

一篇新研究论文探讨了从提供不同但正确的逐步解决方案的多个“思考者”那里学习的挑战和潜力。研究表明，虽然在被动环境中从少数思考者那里进行思维链监督学习可能很困难，但一种高效的主动学习算法可以克服这一点。该算法需要每个思考者最少的思维链数据，适量的思考者，以及足够多的被动最终结果数据来实现目标准确率。

RESEARCH · CL_08654 · Apr 27 · 17:22

FGDM: 软件错误检测的推理感知多智能体框架，使用思维链和思维树提示

研究人员开发了一个名为FGDM的新框架，用于检测和修复软件错误。这个多智能体系统利用具有思维链和思维树提示的大型语言模型（LLMs）来理解代码依赖关系。该框架将代码转换为流程图，识别错误并生成修复方案，并与FAISS向量数据库集成以检索过去的类似问题。在C和Python的100多个程序上进行的实验表明，FGDM的性能优于现有方法，显著降低了Levenshtein距离并提高了余弦相似度。

RESEARCH · CL_06162 · Apr 27 · 15:52

新AI模型提升图像编辑精度和推理能力

研究人员正在开发新的图像编辑方法，超越传统的循序渐进生成。一种名为EAR的方法将视觉规划重新构建为单步转换，使用抽象谜题来测试推理能力。另一种方法Meta-CoT通过将任务分解为三元组和元任务来增强编辑，在粒度和泛化方面取得了显著改进。此外，一种新颖的训练范式允许图像编辑模型在没有配对数据的情况下进行优化，利用视觉语言模型的反馈来确保指令遵循和视觉保真度。

RESEARCH · CL_04939 · Apr 24 · 06:50

新的RIME框架通过优化生成和检索来增强多模态嵌入。

研究人员推出了一种名为重写驱动的多模态嵌入（RIME）的新框架，旨在增强生成式多模态嵌入。RIME通过一个检索友好的重写过程优化生成和嵌入，从而解决了思维链推理的局限性。该框架还整合了跨模态对齐（CMA）以连接生成式和判别式嵌入空间，并采用精炼强化学习（Refine-RL）使用稳定的语义锚点来指导优化。实验表明，RIME在缩短思考步骤长度的同时，性能优于现有的生成式嵌入模型。

RESEARCH · CL_04992 · Apr 24 · 04:22

LLM提示以61%的准确率提取软件目标，辅助人工工作

研究人员开发了一种使用链式LLM和工程化提示的方法，以自动从软件文档中提取功能目标。该方法包括参与者识别以及高/低级目标提取，并引入了生成-批评机制作为两个LLM之间的反馈循环。虽然该流程在低级目标识别方面达到了61%的准确率，但它最适合加速手动提取而非完全取代它。未来的工作旨在通过集成检索增强生成（RAG）和思维链（CoT）提示来提高准确性。

RESEARCH · CL_06869 · Apr 23 · 07:18

研究表明，大型语言模型的思维链推理可能具有欺骗性

研究人员开发了一种方法来区分大型语言模型思维链（CoT）输出中的真实推理步骤和表面推理步骤。这个真实思考得分（TTS）显示，大型语言模型经常生成的推理步骤对最终答案没有因果关系，只有一小部分步骤真正有影响力。研究还发现，这些“啊哈时刻”或自我验证步骤可能是装饰性的，并且可以引导模型在内部遵循已识别的真实推理路径。