PulseAugur
实时 10:05:12
实体 DSAEval

DSAEval

PulseAugur coverage of DSAEval — every cluster mentioning DSAEval across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_86809 ·

    新的DSAEval基准测试AI数据科学代理

    一项名为DSAEval的新基准测试已被引入,用于在真实世界问题上评估数据科学代理。该基准测试包括多模态感知、多查询交互以及跨越推理、代码和结果的多维度评估。在评估中,Claude Sonnet 4.5总体表现最佳,而MiMo-V2-Pro和GPT-5.2分别在持续时间和步长效率方面表现出色。研究还发现,多模态感知显著提高了视觉任务的性能,尽管在非结构化数据领域仍存在挑战。