PulseAugur
实时 22:05:50
实体 TurtleAI

TurtleAI

PulseAugur coverage of TurtleAI — every cluster mentioning TurtleAI across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_68170 ·

    新基准显示视觉语言模型在视觉编程任务上存在困难

    研究人员推出了 TurtleAI,这是一个旨在评估视觉语言模型(VLMs)在海龟图形(Turtle Graphics)教育性视觉编程任务上的新基准。该基准包含 823 个任务,结果显示包括 GPT-5 和 GPT-4o 在内的 20 多个领先的 VLM 在此方面存在显著困难,成功率通常低于 30%。提出的数据生成技术和对 Qwen2-VL-72B 的微调在真实任务上显示出约 20% 的显著改进,突显了模型在空间推理和精确视觉复制方面的挑战。