研究人员开发了新的图像字幕生成框架,这些框架超越了对可见内容的描述,纳入了更广泛的事件背景。一种方法是“面向知识驱动的新闻图像字幕生成的分层多模态检索”,它使用一种检索机制,该机制考虑文章结构和视觉布局来查找相关的外部知识。另一种方法CIAN(Contextual Image-Article Narrator)采用多阶段流程,包括检索、使用微调的Qwen模型进行摘要以及语言润色,以生成丰富的事件字幕。这两种方法都旨在为图像生成更全面、更具上下文细节的描述,其中CIAN在OpenEvents-V1基准测试中显示出改进的检索性能和字幕质量。 AI
影响 通过整合外部知识和事件背景,增强了图像字幕能力,从而生成更具信息量和更像人类的描述。
排序理由 两篇详细介绍图像字幕新方法的独立研究论文。
在 Hugging Face Daily Papers 阅读 →
- alphaXiv
- arXiv
- CatalyzeX
- CIAN
- CORE Recommender
- DagsHub
- Gotit.pub
- Hugging Face
- Influence Flower
- LoRA
- OpenEvents-V1
- Qwen
- ScienceCast
- SigLIP
- ACM Multimedia EVENTA 2025 Challenge
- Hierarchical Multi-Modal Retrieval for Knowledge-Grounded News Image Captioning
- OpenEvent-V1
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →