PulseAugur
实时 09:11:08

新数据集训练LLM进行K-12教育风险评估

研究人员开发了一个名为AIriskEval-edu-db2的新数据集,用于训练和评估大型语言模型(LLMs)在K-12学生教育内容中评估教学风险的能力。该数据集包含来自科学、语言艺术和社会科学问题的1600多个解释,其中包含人类编写的解释以及模拟不同教学风险的LLM生成的解释。它还纳入了由专家教师验证的风险定位和描述的结构化注释。实验表明,在该数据集上微调本地Llama 3.1 8B模型,使其在风险检测和可解释性评估方面的性能接近更强大的前沿模型,同时保持隐私。 AI

影响 该数据集可以提高人工智能生成的K-12学生教育内容的安全性与可靠性。

排序理由 该集群描述了一个用于教育领域人工智能风险评估的新数据集,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新数据集训练LLM进行K-12教育风险评估

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Javier Irigoyen, Roberto Daza, Francisco Jurado, Julian Fierrez, Ruben Tolosana, Alvaro Ortigosa, Enrique Blas, Aythami Morales ·

    AIriskEval-edu: New Dataset for Risk Assessment in AI-mediated K-12 Educational Explanations

    arXiv:2607.01934v1 Announce Type: cross Abstract: This work introduces AIriskEval-edu-db2, a new dataset designed to train and evaluate auditors based on LLMs for an explainable pedagogical risk assessment in instructional content for grades K-12. The dataset comprises 1,639 expl…

  2. arXiv cs.CL TIER_1 English(EN) · Aythami Morales ·

    AIriskEval-edu: New Dataset for Risk Assessment in AI-mediated K-12 Educational Explanations

    This work introduces AIriskEval-edu-db2, a new dataset designed to train and evaluate auditors based on LLMs for an explainable pedagogical risk assessment in instructional content for grades K-12. The dataset comprises 1,639 explanations from 170 curated ScienceQA questions, cov…