PulseAugur
实时 00:54:29
English(EN) Open benchmark: how well can multimodal LLMs read a calendar week-view from a screenshot? Humans ~99%, Q4 local models.....

多模态大模型难以读取日历截图,新基准测试揭示

一项新的基准测试 VCCB(Visual Calendar Comprehension Benchmark,视觉日历理解基准测试)已被开发出来,用于测试多模态大语言模型解读日历截图的能力。初步结果显示,人类的表现(约 99%)与顶级托管模型(80-85%)之间存在显著差距,而本地模型和 Claude Haiku 等小型 LLM 的表现则低得多(38-58%)。测试的创建者正在寻求社区的贡献,以便使用各种本地模型和量化级别运行该基准测试,以更好地理解量化对这项特定任务的影响。 AI

影响 突出了当前多模态大模型的一项特定能力差距,可能为未来代理和视觉理解任务的开发提供指导。

排序理由 该项目描述了一个用于评估多模态大模型能力的新的基准测试,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

多模态大模型难以读取日历截图,新基准测试揭示

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Gold-Drag9242 ·

    开放基准测试:多模态大模型能否准确识别截图中的日历周视图?人类准确率约99%,Q4本地模型.....

    <!-- SC_OFF --><div class="md"><p><strong>Some backstory</strong></p> <p>I've been working on my local agent (openclaw), and I wanted to give it the skill to reconstruct calendar entries from a photo of the screen. I couldn't get at the calendar through an API (long story), so a …