PulseAugur
实时 21:06:14
实体 Sem-ECE

Sem-ECE

PulseAugur coverage of Sem-ECE — every cluster mentioning Sem-ECE across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_27752 ·

    新框架 Sem-ECE 改进了 LLM 校准评估

    研究人员开发了一个名为 Sem-ECE 的新框架,以更好地评估大型语言模型 (LLM) 在开放式问答任务中的校准情况。该方法通过采样答案、将它们分组到语义类别中,并使用这些频率来估计置信度,从而解决了现有评估技术的局限性。该框架包括两个估计器 Sem1-ECE 和 Sem2-ECE,它们在理论上是无偏的,并能深入了解问题的难度。