实体
OSWorld-G
OSWorld-G
PulseAugur coverage of OSWorld-G — every cluster mentioning OSWorld-G across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的GUI-AIMA框架增强了多模态LLM的基础能力
研究人员开发了GUI-AIMA,一个用于改进多模态大语言模型(MLLMs)中图形用户界面(GUI)基础的新型框架。这种基于注意力的方法将内在多模态注意力与逐块基础信号对齐,实现了更高效、数据量更少(data-light)的训练。GUI-AIMA-3B仅用509k个样本就达到了3B模型中的最先进性能,展示了显著的数据效率。
-
InnerZoom框架在单次前向传播中实现SOTA GUI基础定位 · 跟踪3个来源
研究人员开发了InnerZoom,一个新颖的框架,用于在单次前向传播中实现准确高效的GUI基础定位。该方法通过在解码器层之间保留目标区域感知来解决现有多模态大语言模型(MLLM)方法的局限性,这对于GUI交互中精确坐标的生成至关重要。InnerZoom在多个基准测试中取得了最先进的性能,在提高精度的同时降低了计算成本和延迟。