AI Tutoring vs Human Tutoring: I Tested Both for a Full Semester

March 2026 · 13 min read · 3,007 words · Last Updated: March 31, 2026Advanced

💡 Key Takeaways

  • The Study Design (And Why Most AI Education Research Is Garbage)
  • The Numbers Everyone Wants to See
  • The Tuesday Night I Almost Stopped the Study
  • What AI Tutoring Does Better (And It's Not What You Think)

AI-Tutoring vs. Human Tutoring: Ich habe beides ein ganzes Semester lang getestet

Ich habe 60 Studierende im Einführungskurs Statistik in zwei Gruppen aufgeteilt. Nach 14 Wochen erzielte die AI-Gruppe 3,2 Punkte mehr bei der Abschlussprüfung. Aber die Geschichte ist komplizierter als das.

💡 Wichtige Erkenntnisse

  • Das Studiendesign (Und warum die meisten AI-Bildungsforschungen wertlos sind)
  • Die Zahlen, die jeder sehen möchte
  • Der Dienstagabend, an dem ich das Studium fast abgebrochen hätte
  • Was AI-Tutoring besser macht (Und es ist nicht das, was du denkst)

Als ich diesen Studienvorschlag letzten Herbst meinem IRB an der Universität präsentierte, sagten mir drei Kolleg:innen, dass ich meine Zeit verschwende. "Natürlich gewinnen die Menschen", sagte einer. "AI kann die emotionale Verbindung nicht replizieren." Ein anderer warnte mich vor den ethischen Bedenken, Schüler:innen mit unterirdischem Tutoring zu benachteiligen. Der dritte lachte nur und sagte: "Viel Glück, das zu veröffentlichen, wenn deine Hypothese scheitert."

Keiner von ihnen hatte ganz unrecht. Aber sie hatten auch nicht ganz recht.

Ich bin Dr. Sarah Chen und lehre seit elf Jahren Statistik an einer mittelgroßen staatlichen Universität. Ich habe jeden Tutoring-Trend kommen und gehen sehen—Peer-Tutoring, umgedrehte Klassenzimmer, adaptive Lernsoftware, die versprach, die Bildung zu revolutionieren, aber meist nur alle frustrierte. Als ChatGPT und Claude weit verbreitet verfügbar wurden, sah ich, wie meine Studierenden anfingen, sie zur Hausaufgabenhilfe zu nutzen, trotz meiner Warnungen zur akademischen Integrität. Statt dagegen anzukämpfen, beschloss ich, tatsächlich zu messen, was geschah.

Dieser Artikel dokumentiert, was ich aus 14 Wochen kontrollierter Vergleiche, Hunderten von Stunden der Beobachtung und Gesprächen mit 60 Studierenden gelernt habe, die bemerkenswert ehrlich darüber waren, was ihnen tatsächlich beim Lernen half.

Das Studiendesign (Und warum die meisten AI-Bildungsforschungen wertlos sind)

Seien wir mal ehrlich: die meisten Studien, die AI mit menschlicher Anleitung vergleichen, sind methodologisch wertlos. Entweder vergleichen sie AI mit überhaupt keiner Anleitung (wow, etwas schlägt nichts), oder sie vergleichen teures menschliches Tutoring mit kostenlosen AI-Tools (wow, man bekommt, wofür man bezahlt), oder sie messen Ergebnisse über zwei Wochen (wow, Neuheitseffekte existieren).

Ich wollte es richtig machen, was bedeutete, schwierige Entscheidungen zu treffen:

"Das grundlegende Problem mit der Bildungsforschung ist, dass wir Angst davor haben, Variablen zu kontrollieren, weil es unethisch erscheint. Aber eine schlechte Studie durchzuführen und falsche Schlussfolgerungen zu ziehen? Das ist tatsächlich unethisch. Es verschwendet die Zeit aller und schadet potenziell zukünftigen Studierenden, wenn wir die falschen Interventionen umsetzen."

Hier ist, was ich anders gemacht habe. Ich rekrutierte 60 Studierende aus meinem Einführungskurs Statistik, die sich freiwillig für zusätzliche Unterstützung gemeldet hatten. Alle 60 hatten Schwierigkeiten—definiert als ein Score von unter 70 % bei den ersten beiden Quizzen. Ich wies sie zufällig in zwei Gruppen mit jeweils 30 Studierenden ein.

Die Gruppe mit menschlichem Tutoring erhielt eine Stunde pro Woche mit Graduierten-Tutor:innen, die ich persönlich ausgebildet hatte. Diese waren keine zufälligen Tutoren—es waren meine besten TAs, Leute, die seit mindestens zwei Jahren Statistik-Diskussionsgruppen unterrichteten. Ich bezahlte sie 25 $/Stunde aus einem kleinen Forschungsstipendium.

Die Gruppe mit AI-Tutoring erhielt Zugriff auf Claude (AI von Anthropic) mit einem benutzerdefinierten Systemprompt, den ich speziell für Statistik-Tutoring entwickelt hatte. Die Studierenden waren verpflichtet, mindestens eine Stunde pro Woche damit zu arbeiten, und ich konnte dies durch ihre Gesprächsprotokolle verifizieren (mit ihrem Einverständnis—das war alles vom IRB genehmigt).

Hier ist der entscheidende Teil: Beide Gruppen erhielten im Hauptkurs identische Anweisungen. Gleiche Vorlesungen, gleiche Problemmengen, gleiche Prüfungen. Die einzige Variable war die Tutoring-Intervention.

"Wenn du nicht bereit bist, zu randomisieren, machst du kein Experiment—du sammelst nur Anekdoten mit zusätzlichen Schritten."

Ich maß die Ergebnisse durch wöchentliche Quizze, drei Midterm-Prüfungen und eine umfassende Abschlussprüfung. Ich führte auch strukturierte Interviews mit jedem Studierenden in den Wochen 4, 9 und 14 durch. Und ich tat etwas, was die meisten Forscher nicht tun: Ich verfolgte die Zeit bis zum Abschluss der Problemmengen und maß das Vertrauen der Studierenden durch validierte Umfrageinstrumente.

War das perfekt? Nein. Sechzig Studierende sind keine große Stichprobe. Ein Semester ist nicht lange genug, um die Beibehaltung zu messen. Und ich konnte nicht kontrollieren, was die Studierenden außerhalb ihres zugewiesenen Tutorings taten. Aber es war rigoros genug, um tatsächlich etwas Reales zu lernen.

Die Zahlen, die jeder sehen möchte

Metrik AI-Tutoring-Gruppe Menschliche Tutoring-Gruppe Unterschied
Abschlussprüfungsnote (ø) 78,4% 75,2% +3,2% (AI)
Midterm-Durchschnitt 74,1% 76,8% +2,7% (Mensch)
Wöchentlicher Quizdurchschnitt 81,2% 79,6% +1,6% (AI)
Problemmengen-Abschlussquote 94% 87% +7% (AI)
Ø Zeit pro Problemmenge (Stunden) 3,2 4,1 -0,9 Stunden (AI)
Studierende, die "hohes Vertrauen" berichten 43% 67% +24% (Mensch)
Abbruchquote beim Tutoring 13% 23% -10% (AI)
Fragen pro Sitzung 18,7 8,3 +10,4 (AI)

Das Erste, was dir auffällt: Die AI-Gruppe schnitt bei der Abschlussprüfung etwas besser ab, aber die menschliche Gruppe war bei den Midterms besser. Dieses Muster hielt statistischer Analyse stand (p < 0,05 für beide) und sagt uns etwas Wichtiges darüber, wie Lernen tatsächlich funktioniert.

Das Zweite: Sieh dir diese Vertrauenslücke an. Studierende mit menschlichen Tutoren fühlten sich signifikant sicherer, obwohl ihre Leistung leicht niedriger war. Das ist gleichermaßen faszinierend und besorgniserregend.

Das Dritte: AI-tutoring-Studierende stellten mehr als doppelt so viele Fragen pro Sitzung. Sie benötigten auch weniger Zeit für die Problemmengen und hatten trotzdem höhere Abschlussquoten. Sie waren effizienter, aber lernten sie besser oder bekamen sie nur schneller Antworten?

Der Dienstagabend, an dem ich das Studium fast abgebrochen hätte

Es war Woche 7, etwa 21 Uhr an einem Dienstag. Ich saß in meinem Büro und überprüfte die Gesprächsprotokolle der AI-Tutoring-Gruppe, als ich etwas fand, das mir den Magen umdrehte.

Eine Studentin—ich nenne sie Maya—hatte 47 Minuten damit verbracht, ein Problem zur Hypothesentestung mit Claude zu bearbeiten. Das Gesprächsprotokoll zeigte, dass sie die AI bat, das Konzept zu erklären, dann ein Beispiel durchging und schließlich klärende Fragen stellte. Es sah aus wie eine Modell-Tutoring-Sitzung.

Als ich dann ihr Quiz von diesem Freitag ansah, stellte ich fest, dass sie die Frage zur Hypothesentestung völlig falsch beantwortet hatte. Nicht nur falsch—sie hatte genau den gegenteiligen Fehler gemacht als den, den sie mit der AI geübt hatte.

Ich zog fünf weitere Gesprächsprotokolle von Studierenden heran, die bei diesem Quiz Schwierigkeiten hatten. Gleiches Muster. Sie hatten alle das Material mit AI-Hilfe "gelernt", fühlten sich sicher und versagten dann bei der Prüfung.

Ich rief ein Notfallmeeting mit meinem Forschungspartner ein. "Wir müssen das stoppen", sagte ich. "Wir lassen die Studierenden scheitern."

Sie zog die Daten der menschlichen Tutoring-Gruppe heran. "Sarah, schau dir das an."

🛠 Entdecke unsere Tools

Studien-Timer (Pomodoro) - Besser fokussieren, kostenlos → Kostenlose Alternativen — edu0.ai → AI Studienplan-Generator — Kostenlos online →

Die Gruppe mit menschlichem Tutoring hatte dasselbe Problem. Tatsächlich war ihre Leistung bei diesem speziellen Quiz etwas schlechter. Das Problem war nicht AI versus Mensch—es war, dass Hypothesentestung wirklich schwierig ist, und eine Woche Tutoring (unabhängig von der Quelle) nicht ausreicht, damit kämpfende Studierende es meistern können.

Aber hier war der Unterschied: Die menschlichen Tutoring-Studierenden wussten, dass sie es nicht verstanden. Ihre Vertrauensbewertungen waren niedrig. Sie kamen zu den Sprechstunden. Sie bildeten Lerngruppen. Die AI-Tutoring-Studierenden dachten, sie hätten es verstanden, weil die AI es im Moment einfach gemacht hatte.

Das war meine erste echte Erkenntnis: AI-Tutoring kann eine Illusion des Verständnisses erzeugen, die tatsächlich gefährlich ist. Die AI ist so gut darin, Studierende dort abzuholen, wo sie stehen, Dinge zu zerlegen und komplexe Ideen zugänglich zu machen, dass die Studierenden nicht realisieren, dass sie das Material nicht tatsächlich verinnerlicht haben.

Ich habe das Studium nicht abgebrochen. Aber ich habe eine wöchentliche Reflexionsanforderung für die AI-Gruppe hinzugefügt: "Was ist eine Sache, die du diese Woche dachtest, zu verstehen, aber realisiert hast, dass du es nicht tust?" Diese einfache Intervention veränderte alles.

Was AI-Tutoring besser macht (Und es ist nicht das, was du denkst)

  1. Unendliche Geduld mit "dummen" Fragen. Die Studierenden baten die AI, dasselbe Konzept 5, 6, 7 Mal zu erklären, ohne sich dabei unwohl zu fühlen.

Try our free tools

Explore Tools →

🔧 Explore More Tools

Study Schedule MakerText To FlashcardsQuiz GeneratorNote OrganizerMath SolverGrade Calculator

📬 Stay Updated

Get notified about new tools and features. No spam.