PulseAugur
实时 16:12:06
实体 correct answer trap (CAT)

correct answer trap (CAT)

PulseAugur coverage of correct answer trap (CAT) — every cluster mentioning correct answer trap (CAT) across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_50895 ·

    AI 助教难以检测学生错误的推理过程

    研究人员发现 AI 助教存在一种名为“正确答案陷阱”(CAT)的重大故障模式,即当学生得出正确的最终答案时,系统无法检测到其推理过程中的错误。对 Eedi 数学平台上学生回答的分析显示,71% 的 CAT 故障发生在特定类型的问题中,这些问题中不正确的推理恰好得出了正确的数值结果。虽然先进的大型语言模型在检测这些错误方面比微调的 T5 模型有所改进,但它们仍然面临挑战,最好的模型也只能在 57% 的情况下准确识别出错误的推理,并产生大…