PulseAugur
实时 11:39:24
English(EN) Making Failure Safe: A Constrained, Verifiable Agent Framework for Open-Web Data Collection

新的人工智能框架旨在提高网络数据收集的可靠性

两篇新的研究论文介绍了一些框架,这些框架旨在提高使用人工智能代理进行网络数据收集的可靠性和效率。第一个框架是受约束且可验证的代理框架,它将大型语言模型的输出从自由形式的代码转变为结构化的 JSON 配置,展示了降低执行成本和为重复数据收集提供确定性路径。第二个框架 BaRA(BFS-and-Reflection Agent)结合了广度优先搜索和自我反思,以增强链接发现并提取可下载的多模态内容,在合成和真实网站上的表现优于现有方法。 AI

影响 这些框架可以显著提高训练人工智能模型的数据收集效率和准确性,降低成本并提高数据集的质量。

排序理由 arXiv 上发表了两篇学术论文,介绍了人工智能驱动的网络数据收集新框架。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的人工智能框架旨在提高网络数据收集的可靠性

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Bo Chen ·

    Making Failure Safe: A Constrained, Verifiable Agent Framework for Open-Web Data Collection

    arXiv:2607.00035v1 Announce Type: new Abstract: LLMs and agents can generate web scrapers from natural-language requirements, but direct generation remains unreliable because of dependency errors, broken selectors, schema mismatches, and heterogeneous page structures. We propose …

  2. arXiv cs.AI TIER_1 English(EN) · Soojeong Lee, Joseph Lee, Yongseong Cho, Sunjae Kim, Youngwoo Moon, Kyungwoo Song ·

    BaRA: BFS-and-Reflection Web Data Collection Agent

    arXiv:2607.00007v1 Announce Type: cross Abstract: Large language model (LLM)-based web agents reduce manual scripting for web data collection, yet on live websites, they often miss relevant pages, return incomplete multimodal outputs, or return media URLs that are not directly do…