研究人员推出了 BLUEX v2,这是一个更新的基准测试,旨在评估大型语言模型 (LLM) 在巴西大学入学考试的开放式问题上的表现。新版本通过纳入 UNICAMP 和 USP 第二阶段考试中的问题,扩展了原始 BLUEX,这些问题需要自由形式的书面回答。该数据集包含 395 个问题,附带图像、学科领域、参考答案和认知能力标签,并已用于测试 21 个最先进的大型语言模型。结果显示,在 0-10 的评分尺度上,性能差异接近 5 分,其中数学推理和图像理解是当前模型最具挑战性的领域。 AI
影响 该基准测试将帮助研究人员更好地理解和提高大型语言模型在葡萄牙语复杂开放式任务上的表现,尤其是在学术环境中。
排序理由 该集群描述了一个用于评估大型语言模型的新学术基准测试和数据集,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →