English(EN) From Leaky Thoughts to Private Reasoning: Controlling What LRMs Say to Themselves

新方法通过控制大型语言模型（LLM）的内部推理来增强其隐私性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员开发了一种新方法，可以防止大型推理模型（LRM）泄露其内部思考过程中的敏感信息。该方法侧重于提高模型在整个推理过程中遵循指令的能力，从而减少隐私泄露。这通过一个监督微调数据集和一个称为分阶段解码（Staged Decoding）的解码策略来实现，该策略将推理过程生成与最终答案生成分开。评估显示，在遵循指令和隐私方面都有显著改进，尽管观察到任务效用有所权衡。 AI

影响通过控制内部推理增强大型语言模型（LLM）的隐私性，可能使其在敏感应用中更安全地部署。

排序理由该集群包含一篇学术论文，详细介绍了一种控制大型语言模型（LLM）行为的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Haritz Puerto, Haonan Li, Xudong Han, Timothy Baldwin, Iryna Gurevych · 2026-06-01 04:00

从泄露的想法到私有推理：控制大型语言模型（LRM）的自我对话

arXiv:2602.24210v2 Announce Type: replace-cross Abstract: Large reasoning models (LRMs) produce reasoning traces (RTs) that often contain sensitive information. These leaky thoughts are difficult to control and frequently violate explicit privacy directives. Because RTs can be ex…

报道来源 [1]

从泄露的想法到私有推理：控制大型语言模型（LRM）的自我对话

相关实体

相关话题