English(EN) Open benchmark: how well can multimodal LLMs read a calendar week-view from a screenshot? Humans ~99%, Q4 local models.....

多模态大模型难以读取日历截图，新基准测试揭示

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 19:01

一项新的基准测试 VCCB（Visual Calendar Comprehension Benchmark，视觉日历理解基准测试）已被开发出来，用于测试多模态大语言模型解读日历截图的能力。初步结果显示，人类的表现（约 99%）与顶级托管模型（80-85%）之间存在显著差距，而本地模型和 Claude Haiku 等小型 LLM 的表现则低得多（38-58%）。测试的创建者正在寻求社区的贡献，以便使用各种本地模型和量化级别运行该基准测试，以更好地理解量化对这项特定任务的影响。 AI

影响突出了当前多模态大模型的一项特定能力差距，可能为未来代理和视觉理解任务的开发提供指导。

排序理由该项目描述了一个用于评估多模态大模型能力的新的基准测试，属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Gold-Drag9242 · 2026-07-01 19:01

开放基准测试：多模态大模型能否准确识别截图中的日历周视图？人类准确率约99%，Q4本地模型.....

<div class="md">Some backstory I've been working on my local agent (openclaw), and I wanted to give it the skill to reconstruct calendar entries from a photo of the screen. I couldn't get at the calendar through an API (long story), so a …

报道来源 [1]

开放基准测试：多模态大模型能否准确识别截图中的日历周视图？人类准确率约99%，Q4本地模型.....

相关实体

相关话题