PulseAugur
实时 08:04:16
English(EN) Recovering Input Text from Hidden States: Study of Gradient-Based Inversion of Decoder-Only Language Models

新方法可从LLM隐藏状态恢复输入文本

研究人员开发了一种新方法,可以从解码器语言模型的隐藏状态中恢复输入文本。该方法将反演视为连续嵌入空间优化,在最后进行硬标记投影之前,将软代理推向泄露的目标。研究表明,虽然包含内容的标记几乎完美地恢复,但在密集嵌入区域中以空格开头的高频功能词更容易导致重建失败。这种连续的表述允许可观察的优化和可检测的失败,表明GPT-2的最后一层隐藏状态与原始文本一样敏感。 AI

影响 通过演示从隐藏状态恢复输入文本,突显了LLM隐私和安全方面潜在的漏洞。

排序理由 学术论文,详细介绍了一种从语言模型隐藏状态恢复输入文本的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新方法可从LLM隐藏状态恢复输入文本

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Miko{\l}aj S{\l}owikowski, Maciej Witold Majewski ·

    Recovering Input Text from Hidden States: Study of Gradient-Based Inversion of Decoder-Only Language Models

    arXiv:2607.00852v1 Announce Type: cross Abstract: This work studies the hidden-state inversion problem: recovering the original input token sequence of a decoder-only language model from its last-layer hidden states. Rather than treating inversion as a one-shot reconstruction, we…

  2. arXiv cs.AI TIER_1 English(EN) · Maciej Witold Majewski ·

    从隐藏状态恢复输入文本:基于梯度的Decoder-Only语言模型逆向研究

    This work studies the hidden-state inversion problem: recovering the original input token sequence of a decoder-only language model from its last-layer hidden states. Rather than treating inversion as a one-shot reconstruction, we study it as a continuous embedding-space optimisa…