PulseAugur
实时 04:07:39
实体 BLUEX v2

BLUEX v2

PulseAugur coverage of BLUEX v2 — every cluster mentioning BLUEX v2 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_105174 ·

    新的 BLUEX v2 基准测试,用于评估大语言模型在复杂的葡萄牙语大学考试问题上的表现

    研究人员开发了 BLUEX v2,这是一个新的基准测试,旨在评估大语言模型 (LLM) 在葡萄牙语开放式问题上的表现,这些问题专门来自巴西顶尖大学 UNICAMP 和 USP 的第二阶段入学考试。该数据集包含 2022-2025 年的 395 个问题,其中有 919 个带评分的子问题,超过一半的问题附带图像。在对 21 个最先进的大语言模型进行测试时,观察到 4.92 分的性能差距,其中数学推理和图像理解被证明是模型最具挑战性的领域。