English(EN) SAMTok: Representing Any Mask with Two Words

新的SAMTok方法使LLM能够处理像素级图像掩码

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了SAMTok，一种将像素级理解集成到多模态大语言模型（MLLM）中的新颖方法。该技术将任何区域掩码转换为两个离散的token，使QwenVL等标准MLLM无需架构更改即可处理和生成掩码。SAMTok在大型掩码数据集上进行了训练，使模型在各种基于区域的任务中取得了最先进的成果，包括字幕生成、视觉问答和指代分割。 AI

影响使标准LLM能够执行复杂的像素级图像处理任务，有可能拓宽其在交互式AI系统中的应用。

排序理由该集群描述了一篇发表在arXiv上的新研究论文，其中详细介绍了一种新颖的图像掩码表示方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Yikang Zhou, Tao Zhang, Dengxian Gong, Yuanzheng Wu, Ye Tian, Haochen Wang, Haobo Yuan, Jiacong Wang, Lu Qi, Hao Fei, Anran Wang, Zhuochen Wang, Yujing Wang, Cheng Chen, Shunping Ji, Xiangtai Li · 2026-06-16 04:00

SAMTok: Representing Any Mask with Two Words

arXiv:2601.16093v2 Announce Type: replace Abstract: Pixel-wise capabilities are essential for building interactive intelligent systems. However, pixel-wise multi-modal LLMs (MLLMs) remain difficult to scale due to complex region-level encoders, specialized segmentation decoders, …

报道来源 [1]

SAMTok: Representing Any Mask with Two Words

相关实体

相关话题