研究人员开发了Co-Scraper,一个用于高效网页数据提取的新型两阶段框架。该系统利用微调后的Qwen3 8B模型,将查询感知式DOM修剪与稳定的提取策略归纳相结合。Co-Scraper在SWDE数据集上展现了最先进的性能,达到了94.78%的F1分数和90.39%的可复用成功率,显著提高了网页数据采集的准确性和弹性。 AI
影响 通过先进的AI技术,提高了网页数据采集任务的准确性和弹性。
排序理由 该集群描述了一篇发表在arXiv上的研究论文,详细介绍了一个用于网页数据提取的新框架。
在 arXiv cs.IR (Information Retrieval) 阅读 →
- arXiv
- Co-Scraper
- Hugging Face
- Qwen3 8B
- alphaXiv
- CatalyzeX Code Finder for Papers
- Connected Papers
- CORE Recommender
- DagsHub
- Gotit.pub
- Influence Flower
- Litmaps
- ScienceCast
- scite Smart Citations
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →