研究人员开发了Video2GUI,一个旨在为GUI代理训练生成大规模交互轨迹的自动化框架。该系统从无标签的互联网视频中提取数据,通过过滤过程将其转换为结构化的代理轨迹。由此产生的WildGUI数据集包含1500多个应用程序的1200万条轨迹,显著改进了Qwen2.5-VL和Mimo-VL等模型的预训练。 AI
影响 能够为GUI代理创建大规模数据集,可能提高其在各种应用程序中的泛化能力和性能。
排序理由 介绍GUI代理预训练新方法和数据集的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →