一篇新研究论文探讨了使用大型语言模型 (LLM) 来模拟学生在 Java 编程中的错误。该研究在包含超过 74,000 份学生提交代码的 CodeWorkout 数据集上,使用了不同的提示策略评估了五个 LLM。结果表明,虽然 LLM 可以生成各种错误,但 Claude Sonnet 4 在与真实学生错误的一致性方面表现出最均衡的性能。专家注释证实,生成的合成错误在功能上与真实学生错误无法区分。 AI
影响 LLM 可用于生成逼真的编程错误,有助于开发智能辅导系统等教育工具。
排序理由 该集群包含一篇详细介绍 LLM 功能学术研究的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →