English(EN) Multi-Modal LLM based Image Captioning in ICT: Bridging the Gap Between General and Industry Domain

新型DICModel利用多模态大语言模型增强ICT图像描述能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员开发了一种新颖的、专为ICT行业设计的领域特定图像描述模型（DICModel），采用了多阶段渐进式训练策略。该方法结合了合成图像-文本对和专家注释，以增强模型对领域特定视觉信息的理解。DICModel仅拥有70亿参数，却展现出优于更大规模的先进模型的性能，显著提高了BLEU指标和领域特定问题的准确性。 AI

影响这项研究有望改善专业领域视觉信息的提取，可能推动多模态AI能力的进步。

排序理由这是一篇详细介绍新模型和训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Lianying Chao, Kai Zhang, Haoran Cai, Sijie Wu, Xubin Li, Xin Chen · 2026-05-08 04:00

ICT中的多模态大语言模型图像字幕生成：弥合通用领域与行业领域之间的差距

arXiv:2601.09298v2 Announce Type: replace Abstract: In the information and communications technology (ICT) industry, training a domain-specific large language model (LLM) or constructing a retrieval-augmented generation system requires a substantial amount of high-value domain kn…

报道来源 [1]

ICT中的多模态大语言模型图像字幕生成：弥合通用领域与行业领域之间的差距

相关实体

相关话题