What about the study design (and why most ai education research is garbage)?

Let me be blunt: most studies comparing AI to human instruction are methodologically worthless. They either compare AI to no instruction at all (wow, something beats nothing), or they compare expensive human tutoring to free AI tools (wow, you get what you pay for), or they measure outcomes over...

What about the tuesday night i almost stopped the study?

It was week 7, around 9 PM on a Tuesday. I was in my office reviewing conversation logs from the AI tutoring group when I found something that made my stomach drop.

What about the myth that "digital natives" prefer ai tutoring?

Everyone knows that Gen Z students prefer digital tools over human interaction, right? They grew up with technology. They're more comfortable with screens than people. They'd obviously prefer AI tutoring.

What I'd Recommend to My Own Kid?

My daughter is 14. In four years, she'll be in college. What would I want her to do?

AI Tutoring vs Human Tutoring: I Tested Both for a Full Semester [日本語]

💡 Key Takeaways

The Study Design (And Why Most AI Education Research Is Garbage)
The Numbers Everyone Wants to See
The Tuesday Night I Almost Stopped the Study
What AI Tutoring Does Better (And It's Not What You Think)

AIチュータリングと人間のチュータリング：私は両方をフルセメスターでテストしました

私は60人の統計学入門の学生を2つのグループに分けました。14週間後、AIグループは最終試験で3.2ポイント高い成績を取りました。しかし、その話はもっと複雑です。

💡 主なポイント

研究デザイン（なぜほとんどのAI教育研究が無価値なのか）
誰もが見たい数字
研究をやめそうになった火曜日の夜
AIチュータリングが得意なこと（それはあなたが考えていることではない）

昨年の秋、私はこの研究を大学のIRBに提案した際、3人の同僚から時間の無駄だと言われました。「人間が勝つのは当然だ」と一人が言いました。「AIは感情的なつながりを再現できない」と。別の人は、劣ったチュータリングで学生を不利にする可能性がある倫理について警告してくれました。三人目はただ笑って、「仮説が失敗したら、出版できると思わないで」と言いました。

彼らの言うことは完全に間違ってはいませんでしたが、完全に正しいわけでもありませんでした。

私はサラ・チェン博士で、11年間中規模の公立大学で統計学を教えています。私はすべてのチュータリングのトレンドがどのように生まれ、消えていくのを見てきました—ピアチュータリング、反転授業、教育を革命化すると約束する適応学習ソフトウェアもありましたが、ほとんどは皆をイライラさせただけでした。ChatGPTとClaudeが広く利用可能になると、私は学生たちが学問的な誠実さについての警告にもかかわらず、宿題の助けにそれらを使い始めるのを見ました。私はそれに対抗するのではなく、実際に何が起こっているのかを測定することに決めました。

この記事は、14週間の制御比較から学んだこと、数百時間の観察、および学習を助けたと認めた60人の学生との会話を記録しています。

研究デザイン（なぜほとんどのAI教育研究が無価値なのか）

率直に言わせてください：AIと人間の教育を比較するほとんどの研究は、方法論的に無価値です。彼らは、AIに全く指導がない状態を比較するか（すごい、何もないよりはいい）、高価な人間のチュータリングを無料のAIツールと比較するか（すごい、払った分だけの価値がある）、または結果を2週間しか測定しません（すごい、目新しさの効果は存在します）。

私はこの研究を正しくやりたかったので、難しい選択をする必要がありました：

「教育研究の根本的な問題は、変数をコントロールすることを恐れていることです。それは不倫理的に感じられるからです。しかし、悪い研究を実施して誤った結論を引き出すことは、実際には不倫理的です。それは皆の時間を無駄にし、将来の学生に対する間違った介入を実施した際に潜在的に害を及ぼします。」

私が違った方法で行ったことはこれです。私は、追加のチュータリング支援を希望する「統計学入門」のコースから60人の学生を募集しました。すべての60人は成績が70％未満で苦しんでいました。私は彼らを無作為に2つの30人のグループに割り当てました。

人間のチュータリンググループは、私が個人的に訓練した大学院のTAと週に1時間の指導を受けました。彼らはランダムなチューターではなく、少なくとも2年間統計のディスカッションセクションを教えてきた私の最高のTAたちでした。私は小さな研究助成金から彼らに時給25ドルを支払いました。

AIチュータリンググループは、統計チュータリング専用に私が開発したカスタムシステムプロンプトを使ってClaude（AnthropicのAI）にアクセスできました。学生は週に少なくとも1時間はそれを使って作業しなければならず、私は彼らの会話ログを通じてこれを確認できました（彼らの同意のもとに—これはすべてIRBの承認を受けています）。

ここでの重要な部分は、両方のグループがメインコースで同じ教育を受けたことです。同じ講義、同じ問題セット、同じ試験。唯一の変数はチュータリングの介入でした。

「ランダム化する気がないなら、実験をしているのではなく、余分なステップで逸話を収集しているだけです。」

私は、毎週のクイズ、3回の中間試験、そして包括的な最終試験を通じて成果を測定しました。また、4週目、9週目、14週目に全ての学生との構造的なインタビューも行いました。さらに、ほとんどの研究者が行わないことをしました：問題セットの完了までの時間を追跡し、確認済みの調査機器を通じて学生の自信を測定しました。

これは完璧でしたか？いいえ。60人の学生は大きなサンプルではありません。1学期は保持率を測定するには短すぎますし、学生が指定されたチュータリングの外で何をしているかを制御することもできませんでした。しかし、実際に何かを学ぶには十分な厳格さがありました。

誰もが見たい数字

指標	AIチュータリンググループ	人間のチュータリンググループ	差異
最終試験スコア（平均）	78.4%	75.2%	+3.2%（AI）
中間試験平均	74.1%	76.8%	+2.7%（人間）
毎週のクイズ平均	81.2%	79.6%	+1.6%（AI）
問題セット完了率	94%	87%	+7%（AI）
問題セットあたりの平均時間（時間）	3.2	4.1	-0.9時間（AI）
「自信がある」と報告した学生の割合	43%	67%	+24%（人間）
チュータリングからのドロップアウト率	13%	23%	-10%（AI）
セッションあたりの質問数	18.7	8.3	+10.4（AI）

あなたが最初に気づくこと：AIグループは最終試験でわずかに良い成績を取りましたが、人間のグループは中間試験でより良い成績を取りました。このパターンは統計分析で確認され（両方ともp < 0.05）、実際の学習がどのように機能するかに関して重要なことを私たちに教えています。

二つ目：あの自信のギャップを見てください。人間のチューターを持つ学生は、パフォーマンスがわずかに低いにもかかわらず、自分たちの自信が大幅に高いと感じていました。これは同じくらい魅力的で困惑させるものです。

三つ目：AIチュータリングを受けた学生は、セッションあたりの質問数が2倍以上でした。また、彼らは問題セットにかかる時間が少なく、より高い完了率を維持していました。彼らは効率的でしたが、彼らはより良く学んでいたのか、それとも単に早く答えを得ていただけだったのでしょうか？

研究をやめそうになった火曜日の夜

それは第7週火曜日の午後9時頃でした。私はAIチュータリンググループの会話ログを見直していると、私の胃がひっくり返るような何かを見つけました。

学生—彼女をマヤと呼びます—は、Claudeとの仮説検定の問題を解決するのに47分かけていました。会話ログは、AIにその概念を説明するよう求め、その後、例を解明し、明確化のための質問をする様子を示していました。模範的なチュータリングセッションのように見えました。

次に、彼女のその金曜日のクイズを見ました。彼女は仮説検定の質問を完全に間違えていました。間違っているだけでなく、AIと練習した内容とは正反対のエラーを犯していました。

私は、そのクイズで苦しんでいた他の学生の会話ログをさらに5つ引き出しました。同じパターンでした。彼らもすべてAIの助けで「学んだ」材料を持ち、自信を持っていたが、評価で失敗していました。

私は研究パートナーと緊急ミーティングを開きました。「これを止める必要がある」と私は言いました。「学生を失敗させることを許している。」

彼女は人間のチュータリンググループのデータを引き出しました。「サラ、これを見て。」

🛠 私たちのツールを探る

スタディタイマー（ポモドーロ） - より集中できる、無料 → 無料の代替案 — edu0.ai → AIスタディプランジェネレーター — 無料オンライン →

人間のチュータリンググループも同じ問題を抱えていました。実際、その特定のクイズでの彼らのパフォーマンスはわずかに悪かったです。問題はAI対人間ではなく、仮説検定が本当に難しいことであり、苦しんでいる学生には1週間のチュータリング（出所に関わらず）では十分ではなかったのです。

しかし、何が違ったかというと、人間のチュータリングを受けた学生は、自分たちが理解していないことを知っていました。彼らの自信の評価は低かったです。彼らはオフィスアワーに来ました。彼らはスタディグループを形成しました。AIチュータリングを受けた学生は、AIが一瞬、簡単だと感じさせたため、自分たちが理解していると思っていました。

これが私の初めての本当の洞察でした：AIチュータリングは、実際には危険な理解の錯覚を生み出すことができます。AIは学生がどこにいるかを把握し、物事を分かりやすくし、複雑なアイデアをアクセスしやすくするのが非常に得意なので、学生は実際には材料を内面化していないことに気づきません。

私は研究を止めませんでした。しかし、AIグループに毎週の振り返りの要件を追加しました：「今週あなたが理解していると思った一つのことは何だったが、実際にはそうではなかったことを思い知らされたか？」その単純な介入が全てを変えました。

AIチュータリングが得意なこと（それはあなたが考えていることではない）

「愚かな」質問に対する無限の忍耐。学生たちはAIに同じ概念を5回、6回、7回尋ねても恥ずかしい思いをしませんでした

Try our free tools

Explore Tools →