研究人员推出了Caracal,这是一种旨在提高大型语言模型处理长序列可扩展性的新架构。Caracal用参数高效的多头傅里叶模块取代了计算成本高昂的注意力机制,该模块利用了快速傅里叶变换。这种方法通过解决二次成本和位置编码的限制,为长序列建模提供了一条更有效的途径,同时通过标准库运算符保持了可移植性。 AI
影响 为长序列建模提供了更具可扩展性和可移植性的架构,有可能降低计算成本。
排序理由 学术论文介绍了一种新颖的LLM架构。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →