一篇新发表在arXiv上的研究论文探讨了大型语言模型(LLM)电路发现方法中的可变性。研究确定了三种主要的方差来源:重采样、改写和样本级方差。作者引入了CEAP,一种通过减少重采样方差来改进现有EAP-IG技术的新方法。他们还认为,改写方差表明,由于提示可以以多种方式激活不同的内部电路,因此大型语言模型(LLM)可能本质上难以控制。他们认为,样本级方差在很大程度上是良性的,与不忠诚的定义有关,而不是电路缺陷。 AI
影响 引入了一种改进大型语言模型(LLM)可解释性和控制力的新方法,有助于理解和引导模型行为。
排序理由 该集群包含一篇在arXiv上发表的关于大型语言模型(LLM)电路发现新方法的 ist 研究论文。
- arXiv
- EAP-IG
- Hugging Face
- alphaXiv
- CatalyzeX
- Connected Papers
- DagsHub
- Gotit.pub
- IArxiv
- Litmaps
- LLMs
- ScienceCast
- scite Smart Citations
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →