一项名为DSAEval的新基准测试已被引入,用于在真实世界问题上评估数据科学代理。该基准测试包括多模态感知、多查询交互以及跨越推理、代码和结果的多维度评估。在评估中,Claude Sonnet 4.5总体表现最佳,而MiMo-V2-Pro和GPT-5.2分别在持续时间和步长效率方面表现出色。研究还发现,多模态感知显著提高了视觉任务的性能,尽管在非结构化数据领域仍存在挑战。 AI
影响 为评估AI数据科学代理建立了新标准,突出了当前的局限性和未来的研究方向。
排序理由 该集群描述了一篇介绍用于评估AI代理的基准测试的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →