研究人员开发了一种新的视觉Transformer架构,显著降低了图像字幕的计算成本。通过用基于高斯混合模型的聚类方法替换标准的自注意力机制,该模型将相似的图像块分组,将复杂度从二次降低到线性。该方法利用期望最大化算法和基于GPT的解码器,在Flickr 30K数据集上取得了有竞争力的结果。 AI
影响 降低了图像字幕模型的计算开销,可能支持更快、更高效的应用。
排序理由 关于图像字幕新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Dakshina Ranjan Kisku
- expectation–maximization algorithm
- Flickr 30K
- Gaussian mixture model
- generative pre-trained transformer
- vision transformer
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →