PulseAugur
实时 23:51:25
English(EN) BLUEX v2: Benchmarking LLMs on Open-Ended Questions from Brazilian University Entrance Exams

新的 BLUEX v2 基准测试评估大型语言模型在复杂的巴西大学考试问题上的表现

研究人员推出了 BLUEX v2,这是一个更新的基准测试,旨在评估大型语言模型 (LLM) 在巴西大学入学考试的开放式问题上的表现。新版本通过纳入 UNICAMPUSP 第二阶段考试中的问题,扩展了原始 BLUEX,这些问题需要自由形式的书面回答。该数据集包含 395 个问题,附带图像、学科领域、参考答案和认知能力标签,并已用于测试 21 个最先进的大型语言模型。结果显示,在 0-10 的评分尺度上,性能差异接近 5 分,其中数学推理和图像理解是当前模型最具挑战性的领域。 AI

影响 该基准测试将帮助研究人员更好地理解和提高大型语言模型在葡萄牙语复杂开放式任务上的表现,尤其是在学术环境中。

排序理由 该集群描述了一个用于评估大型语言模型的新学术基准测试和数据集,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的 BLUEX v2 基准测试评估大型语言模型在复杂的巴西大学考试问题上的表现

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Jo\~ao Guilherme Alves Santos, Giovana Kerche Bon\'as, Thiago Laitz, Thales Sales Almeida, Helio Pedrini ·

    BLUEX v2: Benchmarking LLMs on Open-Ended Questions from Brazilian University Entrance Exams

    arXiv:2606.22723v2 Announce Type: replace Abstract: Although Large Language Models (LLMs) excel in many tasks, their assessment in Portuguese has received less attention, particularly for open-ended, discursive tasks that demand deeper reasoning and generation capabilities. While…