English(EN) ET-SAM: Efficient Point Prompt Prediction in SAM for Unified Scene Text Detection and Layout Analysis

ET-SAM框架利用SAM加速场景文本分析

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

研究人员开发了ET-SAM，一个旨在利用Segment Anything Model (SAM) 提高场景文本检测和布局分析效率及数据利用率的新框架。ET-SAM引入了一个轻量级点解码器，可生成单词热图，显著减少了对过多前景点提示的需求，并将推理速度比以前基于SAM的方法加快了约三倍。该框架还采用了一种联合训练策略，有效地结合了具有异构文本级标注的数据集，在多个基准数据集上取得了具有竞争力的性能和平均11.0%的F分数提升。 AI

影响这项研究可能带来更快、更高效的图像内文本理解AI系统，造福文档分析和视觉搜索等应用。

排序理由该集群描述了一篇关于场景文本检测和布局分析新框架的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xike Zhang, Maoyuan Ye, Juhua Liu, Bo Du · 2026-06-29 04:00

ET-SAM: Efficient Point Prompt Prediction in SAM for Unified Scene Text Detection and Layout Analysis

arXiv:2603.25168v2 Announce Type: replace Abstract: Previous works based on Segment Anything Model (SAM) have achieved promising performance in unified scene text detection and layout analysis. However, the typical reliance on pixel-level text segmentation for sampling thousands …

报道来源 [1]

ET-SAM: Efficient Point Prompt Prediction in SAM for Unified Scene Text Detection and Layout Analysis

相关实体

相关话题