实体
CodeWorkout
CodeWorkout
PulseAugur coverage of CodeWorkout — every cluster mentioning CodeWorkout across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
LLM 模拟学生 Java 错误,Claude Sonnet 4 表现均衡
一篇新研究论文探讨了使用大型语言模型 (LLM) 来模拟学生在 Java 编程中的错误。该研究在包含超过 74,000 份学生提交代码的 CodeWorkout 数据集上,使用了不同的提示策略评估了五个 LLM。结果表明,虽然 LLM 可以生成各种错误,但 Claude Sonnet 4 在与真实学生错误的一致性方面表现出最均衡的性能。专家注释证实,生成的合成错误在功能上与真实学生错误无法区分。
-
研究发现PKT模型性能提升可能因实验缺陷而夸大
一项新研究重新评估了用于编程知识追踪(PKT)的注意力增强模型,发现其报告的性能提升高度依赖于实验设计选择。研究强调了注意力维度设置以及因学生尝试顺序不当而违反时间因果关系的问题。通过实施受控的评估协议,该研究表明复杂的注意力增强模型与标准的深度知识追踪(DKT)模型之间的性能差距显著缩小,这表明增加架构复杂性并不总是能带来更好的结果。