Türkçe(TR) Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık. Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown

Qwen 3.5-9B大语言模型在浏览器代理截图基础上的表现优于MiMo V2.5

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-07 11:36

对八个用于浏览器代理的视觉大语言模型（LLMs）进行了比较，重点关注它们在截图基础上的能力。令人惊讶的发现是，Qwen 3.5-9B在此任务上表现优于参数量为3080亿的MiMo V2.5。 AI

影响突显了在代理的特定视觉基础任务中，小型模型可能优于大型模型的潜力。

排序理由对多个大语言模型在特定任务上的比较，以研究发现的形式呈现。[lever_c_demoted from research: ic=1 ai=1.0]

在 Mastodon — sigmoid.social 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Mastodon — sigmoid.social TIER_1 Türkçe(TR) · [email protected] · 2026-05-07 11:36

We compared 8 visual LLMs for browser agents in screenshot grounding. Surprising finding: Qwen 3.5-9B, a dropdown missed by MiMo V2.5 with 308B parameters

Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık. Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor. 8 modelden sadece 1'i (Qwen 3.6-35B…

链接 webbrain.one/blog github.com/…/webbrain

报道来源 [1]

We compared 8 visual LLMs for browser agents in screenshot grounding. Surprising finding: Qwen 3.5-9B, a dropdown missed by MiMo V2.5 with 308B parameters

相关实体

相关话题