开发新的课堂课程是一个复杂而耗时的过程。教师必须创建课程,然后在不同条件下对众多学生进行实验,以确保它们适用于所有学习者。斯坦福大学关于人工智能和教育交叉领域的学者提出了一个有趣的问题:人工智能是否可以改善这一过程?在最近发表的一项研究中,他们展示了大型语言模型(LLM)如何模拟创造和评估新材料的专家,以帮助课程设计者更快地将更多高质量的教育内容传递给学生。
“在传统方法中,教师设计每一个细节,从涵盖的主题到学生要解决的示例问题,以及支持的视频和其他媒体。然后,他们在学生中测试这些材料以查看哪些是有效的,”斯坦福AI实验室(SAIL)计算机科学博士生Joy He-Yueya说道。“这是一个缓慢的过程,面临许多后勤挑战。我们认为,可能有更好的方法。”
在多年期的霍夫曼-叶研究基金的支持下,He-Yueya和她的共同导师,斯坦福大学AI实验室副教授Emma Brunskill和心理学及计算机科学副教授Noah D. Goodman,开始集思广益寻找替代方法。此前,AI研究人员曾试图建立学生学习的计算模型来优化教学材料;然而,由于难以建模人类学生的认知动态,这一方法未能实现。
于是,研究团队想知道是否可以训练一个模型像教师一样行事,用自己的判断来评估新的学习材料。AI作为教师
首先,学者们需要验证LLM是否可以有效评估教育材料。在模拟的专家评估中,学者们要求GPT-3.5考虑学生对数学概念的现有知识,并结合特定的一组文字问题,预测学生在课程后进行的测试题上的表现。
在研究的这个阶段,团队希望了解某些学习材料是否对不同的学生群体有效,例如学习代数的八年级学生或在分数上有困难的五年级学生。为了评估模型作为模拟教育专家的能力,学者们决定进行一小套基本测试,以查看模型的课程评估是否可以复制教育心理学中两个众所周知的现象。第一个是,随着学习者技能的发展,教学策略需要改变。初学者从材料中的结构化指导中受益,而水平较高的学生则在最少的指导下表现更好。
斯坦福团队认为,如果LLM在其对学习材料的评估中复制了这种“专业性逆转效应”,这将是AI潜在模仿人类教师的良好指标。第二个现象被称为“多样性效应”,引入更多样化的练习问题并不总是有助于学生掌握一个概念,因为这可能会超载他们的记忆容量。换句话说,少即是多。当学者们让他们的模型评估涉及方程系统和不同学生群体的数学文字问题时,结果再次反映了这一已知的结果模式。
教学优化方法
确认AI教师评估新材料的潜力后,学者们将注意力转向是否可以用一对模型共同优化教育内容的问题。他们提出了一种流水线方法,其中一个模型生成新的教育材料,另一个模型通过预测学生的学习结果来评估这些材料,以课后测试分数为衡量标准。他们将这种教学优化方法应用于开发新的数学文字问题练习册。总体而言,AI方法表现良好:
在一项涉及95名具有教学经验的人的研究中,那些专家普遍与AI评估者一致,认为哪些AI生成的练习册更有效。学者们注意到一些例外情况,即教师们没有发现练习册之间的显著差异,而AI认为它们显著不同。该研究的结果详见2024年教育数据挖掘会议上发表的论文:利用大型语言模型判断评估和优化教育内容。
“虽然LLM不应被视为替代教学专业知识或相关数据以最有效支持学生的方法,但我们希望这种方法可以帮助支持教师和课程设计者,”Brunskill说道。