PulseAugur
实时 12:51:39
实体 MATH-MCQA

MATH-MCQA

PulseAugur coverage of MATH-MCQA — every cluster mentioning MATH-MCQA across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_105155 ·

    新框架利用不确定性解决大语言模型数据污染问题

    研究人员推出了一种名为“基于不确定性的去偏与遗忘”(UBD)的新型框架,用于评估和缓解大语言模型(LLMs)中的数据污染。与以往仅依赖聚合准确性的方法不同,UBD采用基于样本的评估,利用分布距离度量。该方法利用受污染模型的深度集成来估计每个样本的记忆情况,并使用集成不确定性来构建一个去偏的目标分布。在MMLU-Pro和MATH-MCQA基准测试上的实验表明,UBD能有效降低由污染引起的性能指标虚高,同时保持模型在未受污染数据上的性能。