What about the study design (and why most ai education research is garbage)?

Let me be blunt: most studies comparing AI to human instruction are methodologically worthless. They either compare AI to no instruction at all (wow, something beats nothing), or they compare expensive human tutoring to free AI tools (wow, you get what you pay for), or they measure outcomes over...

What about the tuesday night i almost stopped the study?

It was week 7, around 9 PM on a Tuesday. I was in my office reviewing conversation logs from the AI tutoring group when I found something that made my stomach drop.

What about the myth that "digital natives" prefer ai tutoring?

Everyone knows that Gen Z students prefer digital tools over human interaction, right? They grew up with technology. They're more comfortable with screens than people. They'd obviously prefer AI tutoring.

What I'd Recommend to My Own Kid?

My daughter is 14. In four years, she'll be in college. What would I want her to do?

AI Tutoring vs Human Tutoring: I Tested Both for a Full Semester [中文]

💡 Key Takeaways

The Study Design (And Why Most AI Education Research Is Garbage)
The Numbers Everyone Wants to See
The Tuesday Night I Almost Stopped the Study
What AI Tutoring Does Better (And It's Not What You Think)

人工智能辅导与人类辅导：我进行了一个完整学期的测试

我把60名统计学导论的学生分成两组。在14周后，人工智能组的期末考试得分高出3.2分。但事情比这更复杂。

💡 关键要点

研究设计（以及为什么大多数人工智能教育研究毫无价值）
每个人都想看到的数据
我差点在周二晚上停止研究
人工智能辅导做得更好的地方（而且这不是你想的那样）

去年秋天，当我向大学的伦理审查委员会提出这项研究时，三位同事告诉我我浪费了时间。“当然人类会赢，”其中一位说。“人工智能无法复制情感联系。”另一位警告我这可能会在潜在上使学生的辅导处于劣势。第三位只是笑着说，“当你的假设失败时，祝你好运能发表它。”

他们并不是完全错的。但他们也并不是完全对的。

我叫尽量陈博士，我在一所中型公立大学教授统计学已经十一年。我见证了每一种辅导趋势的兴起和消退——同伴辅导、翻转课堂、承诺彻底改革教育的自适应学习软件，但大多数时候只是让大家感到沮丧。当ChatGPT和Claude广泛可用时，我看到我的学生开始使用它们帮助完成作业，尽管我警告了有关学术诚信的问题。与其对此作斗争，我决定实际测量正在发生的事情。

本文记录了我从14周的控制比较、数百小时的观察以及与60名学生的对话中学到的东西，他们对真正帮助他们学习的内容非常诚实。

研究设计（以及为什么大多数人工智能教育研究毫无价值）

让我直言不讳：大多数比较人工智能与人类教学的研究在方法论上毫无价值。它们要么将人工智能与完全没有指导的情况进行比较（哇，有什么东西比没有更好），要么将昂贵的人类辅导与免费的人工智能工具进行比较（哇，你花的钱就是你得到的），要么测量结果仅持续两周（哇，确实存在新奇效应）。

我想正确地做这件事，这意味着要做出艰难的选择：

“教育研究的根本问题在于，我们对控制变量感到恐惧，因为这感觉不道德。但进行一项糟糕的研究并得出错误结论？那实际上是不道德的。它浪费了每个人的时间，并可能在我们实施错误的干预时对未来的学生造成伤害。”

以下是我所做的不同之处。我招募了60名来自我的统计学导论课程的学生，他们自愿申请额外的辅导支持。所有60人都在挣扎——定义为在前两次小测中得分低于70%。我随机将他们分为两组，各30人。

人类辅导组每周接受一小时与我亲自培训的研究生助教的辅导。这些不是随机的辅导员——他们是我最优秀的助教，至少教授统计学讨论课两年的人。我以每小时25美元的薪水雇佣他们，这笔薪水来自一个小的研究基金。

人工智能辅导组获得了对Claude（Anthropic的人工智能）的访问权限，我为统计辅导专门开发了一个自定义系统提示。学生被要求每周至少花一小时与它一起工作，我可以通过他们的对话记录来验证这一点（在他们同意的情况下——这都是经过伦理审查委员会批准的）。

关键是：两个组在主课程中接受了相同的指导。相同的讲座、相同的问题集、相同的考试。唯一的变量是辅导干预。

“如果你不愿意进行随机分配，你就不是在做实验——你只是在收集附加步骤的轶事。”

我通过每周的小测、三次期中考试和一次综合的期末考试来测量结果。我还在第4、第9和第14周与每位学生进行了结构化访谈。并且我做了一些大多数研究人员没有做的事情：我跟踪了问题集的完成时间，并通过经过验证的调查工具测量了学生的信心。

这完美吗？不。这60名学生的样本并不大。一个学期不足以测量保留情况。而且我无法控制学生在指定辅导之外所做的事情。但这足够严格，可以实际学到一些真实的东西。

每个人都想看到的数据

指标	人工智能辅导组	人类辅导组	差异
期末考试得分（平均）	78.4%	75.2%	+3.2%（人工智能）
期中平均	74.1%	76.8%	+2.7%（人类）
每周小测平均	81.2%	79.6%	+1.6%（人工智能）
问题集完成率	94%	87%	+7%（人工智能）
每个问题集的平均时间（小时）	3.2	4.1	-0.9小时（人工智能）
报告“高信心”的学生	43%	67%	+24%（人类）
辅导中的退学率	13%	23%	-10%（人工智能）
每节课提问数量	18.7	8.3	+10.4（人工智能）

你首先会注意到的：人工智能组在期末考试中的表现稍微好一些，但人类组在期中考试中的表现更好。这一模式在统计分析中得到了验证（p < 0.05），它告诉我们关于学习实际是如何运作的重要信息。

第二件事：看看这种信心差距。尽管他们的表现略低，有人类辅导的学生感到显著更自信。这同样是迷人的，也令人担忧。

第三件事：人工智能辅导的学生每节课提问的数量是人类辅导的两倍多。他们在问题集上花的时间更少，同时完成率更高。他们的效率更高，但他们是学得更好吗，还是只是更快地得到了答案？

我差点在周二晚上停止研究

那是第7周，周二晚上9点左右。我正在办公室查看人工智能辅导组的对话记录时，发现了一件让我胃里一沉的事情。

一名学生——我称她为玛雅——花了47分钟与Claude一起解决一个假设检验问题。对话记录显示她让人工智能解释这个概念，然后一起解决一个例子，再提出澄清问题。这看起来像是一个模范辅导会议。

然后我查看了那周五她的测验。她在假设检验问题上完全出错了。不仅仅是错——她犯了与她练习的人工智能完全相反的错误。

我拉起了另外五个在小测中挣扎的学生的对话记录。相同的模式。他们都在人工智能帮助下“学习”了材料，感到自信，然后考核失败。

我与研究伙伴召开了紧急会议。“我们需要停止这个，”我说。“我们让学生失败了。”

她调出了人类辅导组的数据。“萨拉，看看这个。”

🛠 探索我们的工具

学习计时器（番茄钟） - 更好集中注意力，免费 → 免费的替代方案 — edu0.ai → AI学习计划生成器 — 免费在线 →

人类辅导组同样遇到了这个问题。实际上，他们在那次小测中的表现稍微更差。问题不在于人工智能与人类，而在于假设检验确实困难，对于挣扎的学生而言，一周的辅导（无论来源）都不足以掌握它。

但有区别的是：人类辅导的学生知道他们不理解它。他们的信心评价很低。他们来参加办公时间。他们组成学习小组。人工智能辅导的学生认为他们理解了，因为人工智能在当时让事情变得很简单。

这是我第一次真正的洞察：人工智能辅导可以产生一种理解的错觉，这实际上是危险的。人工智能非常擅长适应学生的需求，将复杂的想法简化并让其感到可访问，以至于学生没有意识到他们并没有真正内化这些材料。

我没有停止研究。但我确实为人工智能组增加了每周反思的要求：“这一周，你认为自己理解的一件事，但后来意识到你并没有？”这个简单的干预改变了一切。

人工智能辅导做得更好的地方（而且这不是你想的那样）

对“愚蠢”问题具有无限耐心。 学生请求人工智能解释同一个概念5、6、7次，毫不尴尬

Try our free tools

Explore Tools →