实体 Neuronpedia

Neuronpedia

PulseAugur coverage of Neuronpedia — every cluster mentioning Neuronpedia across labs, papers, and developer communities, ranked by signal.

总计 · 30天

4

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

3

90 天内 4

层级分布 · 90 天

主题

关系

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

RESEARCH · CL_137199 · Jul 11 · 10:29

Anthropic发布J-lens用于调试LLM内部状态

Anthropic开发了一种名为Jacobian Lens (J-lens) 的新可解释性技术，以更好地理解大型语言模型的内部工作原理。该工具提供了对模型正在跟踪的中间概念和计算的洞察，提供了超越仅分析最终输出的调试和审计能力。J-lens与logit lens不同，它侧重于模型可能在不久的将来产生的词语，而不仅仅是下一个token，从而使开发人员能够更好地诊断潜在问题并理解模型行为。
RESEARCH · CL_137201 · Jul 11 · 10:16

Anthropic 发布 J-Lens 以可视化 LLM 的内部思考过程

Anthropic 推出了一种名为 Jacobian Lens (J-Lens) 的新可解释性技术，用于可视化其大型语言模型（特别是 Claude）的内部思考过程。J-Lens 揭示了模型中一个隐藏的“J-Space”，概念和词语在此被激活，然后才被明确生成，从而提供了对其链式思考之外的推理过程的洞察。这一进展对于开发人员调试模型行为、理解失败模式以及确保模型遵循预期的推理路径特别有用，Anthropic 与 Neuronpedia …
RESEARCH · CL_127806 · Jul 6 · 17:34

Anthropic 为 Claude AI 的内部推理揭晓“J-space”

Anthropic 为其 Claude 模型推出了一种新的内部机制，称为“J-space”，它允许 AI 在不产生外部输出来处理和存储信息。这种 J-space 被描述为一个工作空间，Claude 可以在其中执行推理步骤、发现错误并识别概念，这与人类认知和有意识的访问有相似之处。虽然 J-space 并不能表明主观体验，但对于多步推理等某些复杂任务至关重要，并且可以揭示模型中隐藏的目标或对分阶段场景的意识。
TOOL · CL_132260 · Jun 17 · 18:37

Anthropic 的 Jacobian Lens 工具已在 Neuronpedia 上可用

Anthropic 的 Jacobian Lens 库开发的 Jacobian Lens 工具现已通过 Neuronpedia 针对特定模型提供。此预装镜头可实现模型行为的本地可视化和探索，并在 Neuronpedia 上设有专用界面。
RESEARCH · CL_21046 · Nov 28 · 20:54

Anthropic的NLA技术将LLM的“想法”翻译成人类语言

Anthropic推出了一种名为自然语言自编码器（NLA）的新方法，该方法可以将大型语言模型内部的数值“想法”（激活）翻译成人类可读的文本。这项技术使研究人员能够更好地理解模型的行为，包括识别模型可能知道正在被测试但未明确表达的情况，或揭示隐藏的动机。虽然NLA在AI可解释性和调试方面取得了重大进展，但Anthropic也指出了其局限性，例如解释中可能出现的“幻觉”以及高昂的计算成本，但他们正在发布代码和交互式前端以鼓励进一步研究。