EleutherAI发布了一个开源库,用于自动解释稀疏自编码器中的特征,这是一种用于分解模型激活的方法。该工具利用Llama 3.1和Claude 3.5 Sonnet等大型语言模型为这些特征生成自然语言解释,与之前的手动方法相比,大大降低了成本和工作量。该库旨在使社区更容易研究这些可解释的特征。 AI
排序理由 发布了一个开源库及相关研究论文,用于AI模型特征的自动化可解释性。
- Belrose et al. 2023
- Bills et al. 2023
- Claude 3.5 Sonnet
- EleutherAI
- Gandelsman et al. 2024
- Gao et al. 2024
- GPT-2
- Llama 3.1
- nostalgebraist 2020
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →