BigBird 是一种新颖的注意力机制,旨在解决标准 Transformer 模型的二次方复杂度问题。它通过采用稀疏注意力模式来实现这一点,该模式包括全局注意力、窗口注意力和随机注意力,使其能够处理比传统 Transformer 模型长得多的序列。这项创新使得 BigBird 在需要长距离依赖的任务中特别有效,例如文档摘要和长文本问答。 AI
排序理由 该条目描述了一种用于 Transformer 模型的新颖注意力机制,这是一项面向研究的开发。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →