新的Sci-Rho基准测试VLM在多语言STEM问题上的鲁棒性

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-06 07:51

研究人员推出了Sci-Rho，一个旨在测试视觉语言模型（VLM）在STEM问题上鲁棒性的新多语言基准。该基准包含五个学科和七种语言的4200多个问题模板，生成了超过42000个独特实例。对17个最先进VLM的评估显示，平均准确率和最差情况准确率之间存在显著差距，与大型专有模型相比，小型模型在跨语言性能下降方面表现更明显。 AI

影响强调了对VLM更鲁棒的评估方法的需求，尤其是在不同语言和视觉背景下。

排序理由该集群包含一篇详细介绍用于评估AI模型的新基准的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Muhammad Falensi Azmi, Ikhlasul Akmal Hanif, Vallerie Alexandra Putra, Adi Yeltay, Abdullah Mubarak, Fajri Koto · 2026-06-09 04:00

Sci-Rho：一个多语言、视觉基础的符号化 STEM 问题基准测试

arXiv:2606.08034v1 Announce Type: cross Abstract: Symbolic benchmarks have emerged as a key approach to assess model robustness under minor modifications to STEM-related questions. However, existing symbolic benchmarks mostly remain limited to mathematical reasoning, lack visual …
arXiv cs.CL TIER_1 English(EN) · Fajri Koto · 2026-06-06 07:51

Sci-Rho：一个多语言、视觉基础的符号化 STEM 问题基准测试

Symbolic benchmarks have emerged as a key approach to assess model robustness under minor modifications to STEM-related questions. However, existing symbolic benchmarks mostly remain limited to mathematical reasoning, lack visual grounding, and are predominantly in English. In th…

报道来源 [2]

Sci-Rho：一个多语言、视觉基础的符号化 STEM 问题基准测试

Sci-Rho：一个多语言、视觉基础的符号化 STEM 问题基准测试

相关实体

相关话题