研究人员开发了一种新方法,可以从解码器语言模型的隐藏状态中恢复输入文本。该方法将反演视为连续嵌入空间优化,在最后进行硬标记投影之前,将软代理推向泄露的目标。研究表明,虽然包含内容的标记几乎完美地恢复,但在密集嵌入区域中以空格开头的高频功能词更容易导致重建失败。这种连续的表述允许可观察的优化和可检测的失败,表明GPT-2的最后一层隐藏状态与原始文本一样敏感。 AI
影响 通过演示从隐藏状态恢复输入文本,突显了LLM隐私和安全方面潜在的漏洞。
排序理由 学术论文,详细介绍了一种从语言模型隐藏状态恢复输入文本的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →