PulseAugur
实时 23:19:10
English(EN) LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition

新框架LC-ERD通过挖掘潜在逻辑增强LLM推理能力

研究人员推出了一种名为LC-ERD的新型框架,旨在提升大型语言模型(LLM)的推理能力。该方法通过挖掘模型推理过程中的潜在逻辑来解决自对齐方面的挑战。LC-ERD利用变分逻辑势(Variational Logic Potential)来对推理流形进行去噪,并采用多智能体价值分解协议(Multi-Agent Value Decomposition)来评估单个推理步骤的效用,旨在提供更精细、更准确的监督。 AI

影响 通过解决自对齐和奖励信号问题,引入了一种改进LLM推理的新方法。

排序理由 该集群包含一篇详细介绍用于改进LLM推理的新型框架的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yanyu Chen, Jiyue Jiang, Dianzhi Yu, Zheng Wu, Jiahong Liu, Jiaming Han, Xiao Guo, Jinhu Qi, Yu Li, Yifei Zhang, Irwin King ·

    LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition

    arXiv:2605.24005v1 Announce Type: new Abstract: The evolution of Large Language Model (LLM) reasoning is bottlenecked by the scarcity of high-quality process data. While self-alignment via endogenous rewards offers a solution, mining valid supervision faces three challenges: (1) …