PubTables-1M: Towards comprehensive table extraction from unstructured documents
PulseAugur coverage of PubTables-1M: Towards comprehensive table extraction from unstructured documents — every cluster mentioning PubTables-1M: Towards comprehensive table extraction from unstructured documents across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
新的主动学习方法增强表格提取管道
研究人员已将一种名为不确定性群集(Uncertainty Herding, UHerding)的主动学习策略应用于表格提取中使用的级联目标检测管道。此举旨在减轻昂贵的标注负担,特别是对于表格结构识别(Table Structure Recognition, TSR)。提出的扩展方法 RankFusion 和 CAPA,通过结合双流形覆盖和具有不确定性校准的阶段依赖门控,利用表格检测(Table Detection, TD)和 TSR …
-
新方法利用几何先验增强实时表格结构识别
研究人员开发了ConRTF,一种用于改进文档图像中实时表格结构识别的新方法。该方法利用了边缘约束的细粒度定位损失(EFL),该损失编码了表格特有的几何先验,强调行的水平边界和列的垂直边界。ConRTF展示了数据效率,仅用2000-3000个带标注的表格即可实现稳健的准确性,并在基准数据集上显示出优于现有实时检测器的持续改进。
-
FastTab 模型使用递归模块和一维 Transformer 进行表格识别
研究人员开发了 FastTab,这是一种新颖的表格结构识别模型,它利用了递归模块和一维 Transformer。这种方法通过专注于以网格为中心的推理,绕过了传统的自回归解码。FastTab 在多个基准测试中展示了具有竞争力的性能和低延迟推理,并可能应用于摄像头拍摄的文档。