What about the study design (and why most ai education research is garbage)?

Let me be blunt: most studies comparing AI to human instruction are methodologically worthless. They either compare AI to no instruction at all (wow, something beats nothing), or they compare expensive human tutoring to free AI tools (wow, you get what you pay for), or they measure outcomes over...

What about the tuesday night i almost stopped the study?

It was week 7, around 9 PM on a Tuesday. I was in my office reviewing conversation logs from the AI tutoring group when I found something that made my stomach drop.

What about the myth that "digital natives" prefer ai tutoring?

Everyone knows that Gen Z students prefer digital tools over human interaction, right? They grew up with technology. They're more comfortable with screens than people. They'd obviously prefer AI tutoring.

What I'd Recommend to My Own Kid?

My daughter is 14. In four years, she'll be in college. What would I want her to do?

AI Tutoring vs Human Tutoring: I Tested Both for a Full Semester [Bahasa]

💡 Key Takeaways

The Study Design (And Why Most AI Education Research Is Garbage)
The Numbers Everyone Wants to See
The Tuesday Night I Almost Stopped the Study
What AI Tutoring Does Better (And It's Not What You Think)

AI Tutoring vs Human Tutoring: Saya Menguji Keduanya Selama Satu Semester Penuh

Saya membagi 60 mahasiswa pengantar statistik menjadi dua kelompok. Setelah 14 minggu, kelompok AI mencetak 3,2 poin lebih tinggi pada ujian akhir. Namun, ceritanya lebih rumit dari itu.

💡 Poin Penting

Desain Studi (Dan Mengapa Sebagian Besar Penelitian Pendidikan AI Tidak Berguna)
Angka yang Ingin Dilihat Semua Orang
Malam Selasa Ketika Saya Hampir Menghentikan Studi
Apa yang Dilakukan AI Tutoring dengan Lebih Baik (Dan Itu Bukan Apa yang Anda Pikirkan)

Ketika saya mengusulkan studi ini kepada IRB universitas saya musim gugur lalu, tiga rekan memberi tahu saya bahwa saya membuang-buang waktu. "Tentu saja manusia akan menang," kata salah satu dari mereka. "AI tidak dapat mereplikasi hubungan emosional." Yang lain memperingatkan saya tentang etika yang berpotensi merugikan siswa dengan tutoring yang inferior. Yang ketiga hanya tertawa dan berkata, "Semoga berhasil menerbitkannya ketika hipotesis Anda gagal."

Tidak ada dari mereka yang sepenuhnya salah. Tetapi tidak ada dari mereka yang sepenuhnya benar juga.

Saya Dr. Sarah Chen, dan saya telah mengajar statistik di universitas negeri menengah selama sebelas tahun. Saya telah melihat setiap tren tutoring datang dan pergi—tutoring sebaya, kelas terbalik, perangkat lunak pembelajaran adaptif yang menjanjikan untuk merevolusi pendidikan tetapi sebagian besar hanya membuat semua orang frustrasi. Ketika ChatGPT dan Claude tersedia secara luas, saya melihat mahasiswa saya mulai menggunakannya untuk bantuan pekerjaan rumah meskipun saya memperingatkan tentang integritas akademik. Alih-alih melawannya, saya memutuskan untuk benar-benar mengukur apa yang terjadi.

Artikel ini mendokumentasikan apa yang saya pelajari dari 14 minggu perbandingan terkontrol, ratusan jam observasi, dan percakapan dengan 60 siswa yang sangat jujur tentang apa yang sebenarnya membantu mereka belajar.

Desain Studi (Dan Mengapa Sebagian Besar Penelitian Pendidikan AI Tidak Berguna)

Izinkan saya jujur: sebagian besar studi yang membandingkan AI dengan pengajaran manusia tidak memiliki nilai metodologis. Mereka membandingkan AI dengan tidak ada instruksi sama sekali (wow, sesuatu lebih baik daripada tidak ada), atau mereka membandingkan tutoring manusia yang mahal dengan alat AI gratis (wow, Anda mendapatkan apa yang Anda bayar), atau mereka mengukur hasil selama dua minggu (wow, efek kebaruan ada).

Saya ingin melakukan ini dengan benar, yang berarti membuat pilihan sulit:

"Masalah mendasar dengan penelitian pendidikan adalah bahwa kita sangat takut mengontrol variabel karena terasa tidak etis. Tetapi menjalankan studi yang buruk dan menarik kesimpulan yang salah? Itu sebenarnya tidak etis. Itu membuang-buang waktu semua orang dan berpotensi merugikan siswa di masa depan ketika kita menerapkan intervensi yang salah."

Inilah yang saya lakukan berbeda. Saya merekrut 60 siswa dari kursus Pengantar Statistik saya yang telah mendaftar untuk dukungan tutoring tambahan. Semua 60 siswa tersebut mengalami kesulitan—didefinisikan sebagai mencetak di bawah 70% pada dua kuis pertama. Saya secara acak membagi mereka menjadi dua kelompok yang masing-masing terdiri dari 30.

Kelompok tutoring manusia menerima satu jam per minggu dengan asisten pengajar pascasarjana yang telah saya latih secara pribadi. Mereka bukan tutor acak—mereka adalah TA terbaik saya, orang-orang yang telah mengajar sesi diskusi statistik selama setidaknya dua tahun. Saya membayar mereka $25/jam dari dana penelitian kecil.

Kelompok tutoring AI menerima akses ke Claude (AI dari Anthropic) dengan sistem prompt khusus yang telah saya kembangkan khusus untuk tutoring statistik. Siswa diwajibkan untuk menghabiskan setidaknya satu jam per minggu bekerja dengan AI, dan saya dapat memverifikasi ini melalui log percakapan mereka (dengan persetujuan mereka—semua ini telah disetujui oleh IRB).

Inilah bagian pentingnya: kedua kelompok menerima instruksi yang identik dalam kursus utama. Kuliah yang sama, set soal yang sama, ujian yang sama. Satu-satunya variabel adalah intervensi tutoring.

"Jika Anda tidak bersedia untuk mengacak, Anda tidak melakukan eksperimen—Anda hanya mengumpulkan anekdot dengan langkah tambahan."

Saya mengukur hasil melalui kuis mingguan, tiga ujian tengah semester, dan ujian akhir yang komprehensif. Saya juga melakukan wawancara terstruktur dengan setiap siswa pada minggu ke-4, 9, dan 14. Dan saya melakukan sesuatu yang tidak dilakukan oleh sebagian besar peneliti: saya melacak waktu penyelesaian untuk set soal dan mengukur kepercayaan diri siswa melalui instrumen survei yang terverifikasi.

Apakah ini sempurna? Tidak. Enam puluh siswa bukanlah sampel yang besar. Satu semester tidak cukup lama untuk mengukur retensi. Dan saya tidak dapat mengontrol apa yang dilakukan siswa di luar tutoring yang ditugaskan. Tetapi ini cukup ketat untuk benar-benar belajar sesuatu yang nyata.

Angka yang Ingin Dilihat Semua Orang

Metrik	Kelompok AI Tutoring	Kelompok Human Tutoring	Perbedaan
Skor Ujian Akhir (rata-rata)	78.4%	75.2%	+3.2% (AI)
Rata-rata Ujian Tengah Semester	74.1%	76.8%	+2.7% (Manusia)
Rata-rata Kuis Mingguan	81.2%	79.6%	+1.6% (AI)
Rasio Penyelesaian Set Soal	94%	87%	+7% (AI)
Rata-rata Waktu per Set Soal (jam)	3.2	4.1	-0.9 jam (AI)
Siswa yang Melaporkan "Kepercayaan Tinggi"	43%	67%	+24% (Manusia)
Rasio Putus Sekolah dari Tutoring	13%	23%	-10% (AI)
Pertanyaan yang Diajukan per Sesi	18.7	8.3	+10.4 (AI)

Hal pertama yang akan Anda perhatikan: kelompok AI sedikit lebih baik pada ujian akhir, tetapi kelompok manusia lebih baik pada ujian tengah semester. Pola ini bertahan di bawah analisis statistik (p < 0.05 untuk keduanya), dan ini memberi tahu kita sesuatu yang penting tentang bagaimana pembelajaran sebenarnya bekerja.

Hal kedua: lihat kesenjangan kepercayaan itu. Siswa dengan tutor manusia merasa jauh lebih percaya diri, meskipun kinerja mereka sedikit lebih rendah. Ini menarik dan mengkhawatirkan dalam ukuran yang sama.

Hal ketiga: siswa tutoring AI mengajukan lebih dari dua kali lipat jumlah pertanyaan per sesi. Mereka juga menghabiskan lebih sedikit waktu pada set soal sambil mempertahankan tingkat penyelesaian yang lebih tinggi. Mereka lebih efisien, tetapi apakah mereka belajar lebih baik atau hanya mendapatkan jawaban lebih cepat?

Malam Selasa Ketika Saya Hampir Menghentikan Studi

Itu adalah minggu ke-7, sekitar pukul 9 malam pada hari Selasa. Saya berada di kantor saya meninjau log percakapan dari kelompok tutoring AI ketika saya menemukan sesuatu yang membuat perut saya mual.

Seorang siswa—saya akan memanggilnya Maya—telah menghabiskan 47 menit mengerjakan masalah pengujian hipotesis dengan Claude. Log percakapan menunjukkan dia meminta AI untuk menjelaskan konsep tersebut, kemudian mengerjakan contoh, lalu mengajukan pertanyaan klarifikasi. Itu terlihat seperti sesi tutoring yang model.

Kemudian saya melihat kuisnya dari hari Jumat itu. Dia telah menjawab pertanyaan pengujian hipotesis dengan salah total. Tidak hanya salah—dia telah membuat kesalahan yang persis berlawanan dari apa yang dia praktikkan dengan AI.

Saya menarik lima log percakapan lagi dari siswa yang mengalami kesulitan pada kuis itu. Pola yang sama. Mereka semua "belajar" materi dengan bantuan AI, merasa percaya diri, lalu gagal dalam penilaian.

Saya mengadakan pertemuan darurat dengan mitra penelitian saya. "Kita perlu menghentikan ini," kata saya. "Kita membiarkan siswa gagal."

Dia menarik data dari kelompok tutoring manusia. "Sarah, lihat ini."

🛠 Jelajahi Alat Kami

Pengatur Waktu Belajar (Pomodoro) - Fokus Lebih Baik, Gratis → Alternatif Gratis — edu0.ai → Generator Rencana Belajar AI — Gratis Online →

Kelompok tutoring manusia memiliki masalah yang sama. Sebenarnya, kinerja mereka pada kuis tertentu itu sedikit lebih buruk. Masalahnya bukan AI versus manusia—itu adalah bahwa pengujian hipotesis benar-benar sulit, dan satu minggu tutoring (terlepas dari sumbernya) tidak cukup untuk siswa yang berjuang untuk menguasainya.

Tetapi inilah yang berbeda: siswa tutoring manusia tahu bahwa mereka tidak memahaminya. Penilaian kepercayaan diri mereka rendah. Mereka datang ke jam kantor. Mereka membentuk kelompok belajar. Siswa tutoring AI berpikir mereka memahaminya karena AI telah membuatnya terasa mudah pada saat itu.

Ini adalah wawasan nyata pertama saya: AI tutoring dapat menciptakan ilusi pemahaman yang sebenarnya berbahaya. AI sangat baik dalam bertemu siswa di mana mereka berada, dalam memecah hal-hal, dalam membuat ide-ide kompleks terasa dapat diakses, sehingga siswa tidak menyadari bahwa mereka sebenarnya belum menginternalisasi materi tersebut.

Saya tidak menghentikan studi tersebut. Tetapi saya menambahkan persyaratan refleksi mingguan untuk kelompok AI: "Apa satu hal yang Anda pikir Anda pahami minggu ini tetapi menyadari Anda tidak?" Intervensi sederhana itu mengubah segalanya.

Apa yang Dilakukan AI Tutoring dengan Lebih Baik (Dan Itu Bukan Apa yang Anda Pikirkan)

Kesabaran tak terbatas dengan pertanyaan "bodoh". Siswa meminta AI untuk menjelaskan konsep yang sama 5, 6, 7 kali tanpa merasa malu

Try our free tools

Explore Tools →