一篇新论文提出,大型语言模型(LLMs)通过一种称为变分归纳的过程学习因果结构,该过程依赖于识别文本数据中的差异制造者。研究认为,LLMs采用一种与实验方法平行的逻辑,即改变环境可以揭示因果关系。这种归纳方法在训练过程中通过处理大量文本来识别有影响力的词语和短语来实现,其中令牌嵌入和自注意力等架构特征起着关键作用。 AI
影响 提出了一个理解LLMs如何获得因果推理能力的新框架,可能影响未来的模型开发。
排序理由 在arXiv上发表的关于LLM能力的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Hugging Face
- Judea Pearl
- Large Language Models
- Neyman-Rubin
- self-attention
- token embeddings
- variational induction
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →