English(EN) Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs

新协议检测 LLM 提供商的模型替换

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

一篇新的研究论文提出了一个提交-开放协议，用于检测托管大型语言模型提供商何时用更便宜的模型替换广告中的模型。该协议使用 Merkle 树来提交模型输出的稀疏自编码器 (SAE) 特征追踪，允许验证者检测此类替换。在 Qwen3-1.7B、Gemma-2-2B 和规模更大的 Gemma-2-9B 上的实验证明了该协议在拒绝各种替换攻击方面的有效性，其性能优于 SVIP 等现有方法。 AI

影响该协议可以通过提供一种可验证的机制来防止欺骗性的模型替换，从而增强对托管 LLM 服务的信任。

排序理由该集群包含一篇详细介绍检测 LLM 提供商欺诈的新技术方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ziyang Liu · 2026-05-26 04:00

托管式大型语言模型中用于审计会话替换检测的承诺SAE特征

arXiv:2604.18179v2 Announce Type: replace-cross Abstract: Hosted-LLM providers have a silent-substitution incentive: advertise a stronger model while serving cheaper replies. Probe-after-return schemes such as SVIP leave a parallel-serve side-channel, since a dishonest provider c…

报道来源 [1]

托管式大型语言模型中用于审计会话替换检测的承诺SAE特征

相关实体

相关话题