PulseAugur
实时 12:25:03
实体 Ido Kaminer

Ido Kaminer

PulseAugur coverage of Ido Kaminer — every cluster mentioning Ido Kaminer across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_82604 ·

    新的ASyMOB基准测试,用于测试LLM超越记忆的数学推理能力

    研究人员推出了ASyMOB,一个旨在评估大型语言模型符号数学能力的新基准测试。该数据集包含跨越不同数学领域的超过35,000个已验证的问题,重点是通过符号和数值转换来测试泛化能力。初步评估显示,大多数模型在微小扰动下表现不佳,尽管顶级系统表现出更强的鲁棒性,并且代码工具的集成显著稳定了性能。