💡 Key Takeaways
- The Study Design (And Why Most AI Education Research Is Garbage)
- The Numbers Everyone Wants to See
- The Tuesday Night I Almost Stopped the Study
- What AI Tutoring Does Better (And It's Not What You Think)
人工智能辅导与人类辅导:我进行了一个完整学期的测试
我把60名统计学导论的学生分成两组。在14周后,人工智能组的期末考试得分高出3.2分。但事情比这更复杂。
💡 关键要点
- 研究设计(以及为什么大多数人工智能教育研究毫无价值)
- 每个人都想看到的数据
- 我差点在周二晚上停止研究
- 人工智能辅导做得更好的地方(而且这不是你想的那样)
去年秋天,当我向大学的伦理审查委员会提出这项研究时,三位同事告诉我我浪费了时间。“当然人类会赢,”其中一位说。“人工智能无法复制情感联系。”另一位警告我这可能会在潜在上使学生的辅导处于劣势。第三位只是笑着说,“当你的假设失败时,祝你好运能发表它。”
他们并不是完全错的。但他们也并不是完全对的。
我叫尽量陈博士,我在一所中型公立大学教授统计学已经十一年。我见证了每一种辅导趋势的兴起和消退——同伴辅导、翻转课堂、承诺彻底改革教育的自适应学习软件,但大多数时候只是让大家感到沮丧。当ChatGPT和Claude广泛可用时,我看到我的学生开始使用它们帮助完成作业,尽管我警告了有关学术诚信的问题。与其对此作斗争,我决定实际测量正在发生的事情。
本文记录了我从14周的控制比较、数百小时的观察以及与60名学生的对话中学到的东西,他们对真正帮助他们学习的内容非常诚实。
研究设计(以及为什么大多数人工智能教育研究毫无价值)
让我直言不讳:大多数比较人工智能与人类教学的研究在方法论上毫无价值。它们要么将人工智能与完全没有指导的情况进行比较(哇,有什么东西比没有更好),要么将昂贵的人类辅导与免费的人工智能工具进行比较(哇,你花的钱就是你得到的),要么测量结果仅持续两周(哇,确实存在新奇效应)。
我想正确地做这件事,这意味着要做出艰难的选择:
“教育研究的根本问题在于,我们对控制变量感到恐惧,因为这感觉不道德。但进行一项糟糕的研究并得出错误结论?那实际上是不道德的。它浪费了每个人的时间,并可能在我们实施错误的干预时对未来的学生造成伤害。”
以下是我所做的不同之处。我招募了60名来自我的统计学导论课程的学生,他们自愿申请额外的辅导支持。所有60人都在挣扎——定义为在前两次小测中得分低于70%。我随机将他们分为两组,各30人。
人类辅导组每周接受一小时与我亲自培训的研究生助教的辅导。这些不是随机的辅导员——他们是我最优秀的助教,至少教授统计学讨论课两年的人。我以每小时25美元的薪水雇佣他们,这笔薪水来自一个小的研究基金。
人工智能辅导组获得了对Claude(Anthropic的人工智能)的访问权限,我为统计辅导专门开发了一个自定义系统提示。学生被要求每周至少花一小时与它一起工作,我可以通过他们的对话记录来验证这一点(在他们同意的情况下——这都是经过伦理审查委员会批准的)。
关键是:两个组在主课程中接受了相同的指导。相同的讲座、相同的问题集、相同的考试。唯一的变量是辅导干预。
“如果你不愿意进行随机分配,你就不是在做实验——你只是在收集附加步骤的轶事。”
我通过每周的小测、三次期中考试和一次综合的期末考试来测量结果。我还在第4、第9和第14周与每位学生进行了结构化访谈。并且我做了一些大多数研究人员没有做的事情:我跟踪了问题集的完成时间,并通过经过验证的调查工具测量了学生的信心。
这完美吗?不。这60名学生的样本并不大。一个学期不足以测量保留情况。而且我无法控制学生在指定辅导之外所做的事情。但这足够严格,可以实际学到一些真实的东西。
每个人都想看到的数据
| 指标 | 人工智能辅导组 | 人类辅导组 | 差异 |
|---|---|---|---|
| 期末考试得分(平均) | 78.4% | 75.2% | +3.2%(人工智能) |
| 期中平均 | 74.1% | 76.8% | +2.7%(人类) |
| 每周小测平均 | 81.2% | 79.6% | +1.6%(人工智能) |
| 问题集完成率 | 94% | 87% | +7%(人工智能) |
| 每个问题集的平均时间(小时) | 3.2 | 4.1 | -0.9小时(人工智能) |
| 报告“高信心”的学生 | 43% | 67% | +24%(人类) |
| 辅导中的退学率 | 13% | 23% | -10%(人工智能) |
| 每节课提问数量 | 18.7 | 8.3 | +10.4(人工智能) |
你首先会注意到的:人工智能组在期末考试中的表现稍微好一些,但人类组在期中考试中的表现更好。这一模式在统计分析中得到了验证(p < 0.05),它告诉我们关于学习实际是如何运作的重要信息。
第二件事:看看这种信心差距。尽管他们的表现略低,有人类辅导的学生感到显著更自信。这同样是迷人的,也令人担忧。
第三件事:人工智能辅导的学生每节课提问的数量是人类辅导的两倍多。他们在问题集上花的时间更少,同时完成率更高。他们的效率更高,但他们是学得更好吗,还是只是更快地得到了答案?
我差点在周二晚上停止研究
那是第7周,周二晚上9点左右。我正在办公室查看人工智能辅导组的对话记录时,发现了一件让我胃里一沉的事情。
一名学生——我称她为玛雅——花了47分钟与Claude一起解决一个假设检验问题。对话记录显示她让人工智能解释这个概念,然后一起解决一个例子,再提出澄清问题。这看起来像是一个模范辅导会议。
然后我查看了那周五她的测验。她在假设检验问题上完全出错了。不仅仅是错——她犯了与她练习的人工智能完全相反的错误。
我拉起了另外五个在小测中挣扎的学生的对话记录。相同的模式。他们都在人工智能帮助下“学习”了材料,感到自信,然后考核失败。
我与研究伙伴召开了紧急会议。“我们需要停止这个,”我说。“我们让学生失败了。”
她调出了人类辅导组的数据。“萨拉,看看这个。”
人类辅导组同样遇到了这个问题。实际上,他们在那次小测中的表现稍微更差。问题不在于人工智能与人类,而在于假设检验确实困难,对于挣扎的学生而言,一周的辅导(无论来源)都不足以掌握它。
但有区别的是:人类辅导的学生知道他们不理解它。他们的信心评价很低。他们来参加办公时间。他们组成学习小组。人工智能辅导的学生认为他们理解了,因为人工智能在当时让事情变得很简单。
这是我第一次真正的洞察:人工智能辅导可以产生一种理解的错觉,这实际上是危险的。人工智能非常擅长适应学生的需求,将复杂的想法简化并让其感到可访问,以至于学生没有意识到他们并没有真正内化这些材料。
我没有停止研究。但我确实为人工智能组增加了每周反思的要求:“这一周,你认为自己理解的一件事,但后来意识到你并没有?”这个简单的干预改变了一切。
人工智能辅导做得更好的地方(而且这不是你想的那样)
- 对“愚蠢”问题具有无限耐心。 学生请求人工智能解释同一个概念5、6、7次,毫不尴尬
Try our free tools
Explore Tools →