研究人员开发了 WinDOM,这是一个用于训练小型(约 2B 参数)GUI 接地代理的新数据集和方法。WinDOM 语料库包含超过 54,000 条记录,通过自动化与 Windows 11 Web 重实现(web reimplementation)的交互生成,直接从文档对象模型(Document Object Model)提取边界框,无需人工标注或 OCR。这种方法与自家族蒸馏(Self-Family Distillation, SFD)相结合,SFD 是一种使用学生模型自身不断变化的状态或同一家族的更大教师模型进行训练的技术。实验表明,使用 SFD-4B 和 Early-init RL 微调的 Qwen3.5-2B 模型在各种基准测试中取得了显著的提升,优于基础模型。 AI
影响 这项研究为训练更小、更高效的 GUI 接地 AI 模型提供了一种新颖的方法,有望实现更广泛的设备端部署和辅助工具。
排序理由 该集群包含一篇详细介绍 AI 模型新数据集和训练方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Chengheng Li Chen
- Document Object Model
- GRPO
- Hugging Face
- Playwright
- Qwen3.5-2B
- Self-Family Distillation
- SFD-4B
- WinDOM
- Windows 11
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →