English(EN) Recovering Input Text from Hidden States: Study of Gradient-Based Inversion of Decoder-Only Language Models

新方法可从LLM隐藏状态恢复输入文本

作者 PulseAugur 编辑部 · [2 个来源] · 2026-07-01 12:18

研究人员开发了一种新方法，可以从解码器语言模型的隐藏状态中恢复输入文本。该方法将反演视为连续嵌入空间优化，在最后进行硬标记投影之前，将软代理推向泄露的目标。研究表明，虽然包含内容的标记几乎完美地恢复，但在密集嵌入区域中以空格开头的高频功能词更容易导致重建失败。这种连续的表述允许可观察的优化和可检测的失败，表明GPT-2的最后一层隐藏状态与原始文本一样敏感。 AI

影响通过演示从隐藏状态恢复输入文本，突显了LLM隐私和安全方面潜在的漏洞。

排序理由学术论文，详细介绍了一种从语言模型隐藏状态恢复输入文本的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

GPT-2

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Miko{\l}aj S{\l}owikowski, Maciej Witold Majewski · 2026-07-02 04:00

Recovering Input Text from Hidden States: Study of Gradient-Based Inversion of Decoder-Only Language Models

arXiv:2607.00852v1 Announce Type: cross Abstract: This work studies the hidden-state inversion problem: recovering the original input token sequence of a decoder-only language model from its last-layer hidden states. Rather than treating inversion as a one-shot reconstruction, we…
arXiv cs.AI TIER_1 English(EN) · Maciej Witold Majewski · 2026-07-01 12:18

从隐藏状态恢复输入文本：基于梯度的Decoder-Only语言模型逆向研究

This work studies the hidden-state inversion problem: recovering the original input token sequence of a decoder-only language model from its last-layer hidden states. Rather than treating inversion as a one-shot reconstruction, we study it as a continuous embedding-space optimisa…

报道来源 [2]

Recovering Input Text from Hidden States: Study of Gradient-Based Inversion of Decoder-Only Language Models

从隐藏状态恢复输入文本：基于梯度的Decoder-Only语言模型逆向研究

相关实体

相关话题