PulseAugur
实时 21:54:23
实体 Comvest

Comvest

PulseAugur coverage of Comvest — every cluster mentioning Comvest across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_119636 ·

    新的 BLUEX v2 基准测试评估大型语言模型在复杂的巴西大学考试问题上的表现

    研究人员推出了 BLUEX v2,这是一个更新的基准测试,旨在评估大型语言模型 (LLM) 在巴西大学入学考试的开放式问题上的表现。新版本通过纳入 UNICAMP 和 USP 第二阶段考试中的问题,扩展了原始 BLUEX,这些问题需要自由形式的书面回答。该数据集包含 395 个问题,附带图像、学科领域、参考答案和认知能力标签,并已用于测试 21 个最先进的大型语言模型。结果显示,在 0-10 的评分尺度上,性能差异接近 5 分,其中数…