What about the study design (and why most ai education research is garbage)?

Let me be blunt: most studies comparing AI to human instruction are methodologically worthless. They either compare AI to no instruction at all (wow, something beats nothing), or they compare expensive human tutoring to free AI tools (wow, you get what you pay for), or they measure outcomes over...

What about the tuesday night i almost stopped the study?

It was week 7, around 9 PM on a Tuesday. I was in my office reviewing conversation logs from the AI tutoring group when I found something that made my stomach drop.

What about the myth that "digital natives" prefer ai tutoring?

Everyone knows that Gen Z students prefer digital tools over human interaction, right? They grew up with technology. They're more comfortable with screens than people. They'd obviously prefer AI tutoring.

What I'd Recommend to My Own Kid?

My daughter is 14. In four years, she'll be in college. What would I want her to do?

AI Tutoring vs Human Tutoring: I Tested Both for a Full Semester [Tiếng Việt]

💡 Key Takeaways

The Study Design (And Why Most AI Education Research Is Garbage)
The Numbers Everyone Wants to See
The Tuesday Night I Almost Stopped the Study
What AI Tutoring Does Better (And It's Not What You Think)

Học Tập AI so với Học Tập Con Người: Tôi đã Thử Cả Hai trong Một Học Kỳ Đầy Đủ

Tôi chia 60 sinh viên môn thống kê nhập môn thành hai nhóm. Sau 14 tuần, nhóm AI đã đạt điểm cao hơn 3.2 điểm trong kỳ thi cuối. Nhưng câu chuyện còn phức tạp hơn thế.

💡 Những Điều Chính Rút Ra

Thiết kế Nghiên cứu (Và Tại Sao Hầu Hết Nghiên Cứu Giáo Dục AI Là Rác)
Các Số Liệu Mọi Người Đều Muốn Thấy
Tối Thứ Ba Mà Tôi Suýt Ngừng Nghiên Cứu
Điều Gì mà Học Tập AI Làm Tốt Hơn (Và Không Như Bạn Nghĩ)

Khi tôi đề xuất nghiên cứu này với IRB của trường đại học mình vào mùa thu năm ngoái, ba đồng nghiệp đã nói với tôi rằng tôi đang lãng phí thời gian. "Chắc chắn con người sẽ thắng," một người nói. "AI không thể tái hiện kết nối tình cảm." Một người khác đã cảnh báo tôi về đạo đức của việc có thể làm bất lợi cho sinh viên với sự dạy kèm kém hơn. Người thứ ba chỉ cười và nói, "Chúc may mắn khi xuất bản điều đó khi giả thuyết của bạn thất bại."

Không ai trong số họ hoàn toàn sai. Nhưng không ai trong số họ hoàn toàn đúng cả.

Tôi là Dr. Sarah Chen, và tôi đã dạy thống kê tại một trường đại học công lập có quy mô trung bình trong mười một năm. Tôi đã thấy mọi xu hướng dạy kèm đến và đi—dạy kèm đồng trang lứa, lớp học đảo ngược, phần mềm học tập thích ứng hứa hẹn sẽ cách mạng hóa giáo dục nhưng phần lớn chỉ làm mọi người thất vọng. Khi ChatGPT và Claude trở nên phổ biến, tôi quan sát sinh viên của mình bắt đầu sử dụng chúng để giúp làm bài tập về nhà mặc dù đã cảnh báo họ về tính trung thực học thuật. Thay vì chống lại nó, tôi quyết định thực sự đo lường những gì đang xảy ra.

Bài viết này ghi lại những gì tôi đã học được từ 14 tuần so sánh có kiểm soát, hàng trăm giờ quan sát, và các cuộc trò chuyện với 60 sinh viên đã rất trung thực về những gì thực sự giúp họ học tập.

Thiết kế Nghiên cứu (Và Tại Sao Hầu Hết Nghiên Cứu Giáo Dục AI Là Rác)

Hãy để tôi nói thẳng: hầu hết các nghiên cứu so sánh AI với giảng dạy của con người đều không có giá trị phương pháp. Họ hoặc so sánh AI với không có giảng dạy nào (wow, cái gì đó cũng đánh bại không gì), hoặc họ so sánh dạy kèm con người đắt tiền với các công cụ AI miễn phí (wow, bạn nhận được những gì bạn trả tiền), hoặc họ đo lường kết quả trong hai tuần (wow, hiệu ứng mới mẻ tồn tại).

Tôi muốn thực hiện điều này đúng cách, điều đó có nghĩa là đưa ra những lựa chọn khó khăn:

"Vấn đề cơ bản với nghiên cứu giáo dục là chúng tôi rất sợ việc kiểm soát các biến số vì cảm thấy không đạo đức. Nhưng thực hiện một nghiên cứu kém và rút ra kết luận sai? Thực sự là không đạo đức. Nó lãng phí thời gian của mọi người và có thể gây hại cho các sinh viên tương lai khi chúng tôi thực hiện những can thiệp sai."

Đây là những gì tôi đã làm khác. Tôi đã tuyển dụng 60 sinh viên từ khóa học Nhập môn Thống kê của mình, những người đã tình nguyện cho sự hỗ trợ dạy kèm thêm. Tất cả 60 sinh viên đều gặp khó khăn—được định nghĩa là đạt dưới 70% trong hai bài kiểm tra đầu tiên. Tôi đã phân bổ ngẫu nhiên họ thành hai nhóm 30.

Nhóm học kèm con người đã nhận được một giờ mỗi tuần với các trợ giảng sau đại học mà tôi đã tự tay đào tạo. Đây không phải là những người dạy kèm ngẫu nhiên—họ là những trợ giảng tốt nhất của tôi, những người đã dạy các phần thảo luận thống kê ít nhất trong hai năm. Tôi đã trả cho họ 25 đô la/giờ từ một khoản trợ cấp nghiên cứu nhỏ.

Nhóm học kèm AI đã nhận được quyền truy cập vào Claude (AI của Anthropic) với một dòng lệnh hệ thống mà tôi đã phát triển cụ thể cho việc dạy kèm thống kê. Sinh viên được yêu cầu dành ít nhất một giờ mỗi tuần làm việc với nó, và tôi có thể xác minh điều này thông qua các nhật ký cuộc trò chuyện của họ (với sự đồng ý của họ—tất cả đều được IRB chấp thuận).

Đây là phần quan trọng: cả hai nhóm đều nhận được cùng một sự giảng dạy trong khóa học chính. Cùng các bài giảng, cùng bộ đề bài, cùng các kỳ thi. Biến số duy nhất là sự can thiệp dạy kèm.

"Nếu bạn không sẵn sàng ngẫu nhiên hóa, bạn không thực hiện một thí nghiệm—bạn chỉ đang thu thập các giai thoại với những bước bổ sung."

Tôi đã đo lường kết quả thông qua các bài kiểm tra hàng tuần, ba bài kiểm tra giữa kỳ, và một kỳ thi cuối tổng hợp. Tôi cũng đã thực hiện các phỏng vấn có cấu trúc với từng sinh viên vào tuần thứ 4, 9, và 14. Và tôi đã làm điều mà hầu hết các nhà nghiên cứu không làm: tôi theo dõi thời gian hoàn thành cho các bộ bài tập và đo lường sự tự tin của sinh viên thông qua các công cụ khảo sát được xác thực.

Có phải điều này hoàn hảo không? Không. Sáu mươi sinh viên không phải là một mẫu lớn. Một học kỳ không đủ dài để đo lường sự tiếp thu. Và tôi không thể kiểm soát những gì sinh viên đã làm bên ngoài sự dạy kèm được giao. Nhưng nó đủ nghiêm ngặt để thực sự học được điều gì đó thực tế.

Các Số Liệu Mọi Người Đều Muốn Thấy

Chỉ số	Nhóm Học Tập AI	Nhóm Học Tập Con Người	Chênh lệch
Điểm Thi Cuối (tb)	78.4%	75.2%	+3.2% (AI)
Điểm Trung Bình Giữa Kỳ	74.1%	76.8%	+2.7% (Con Người)
Điểm Trung Bình Bài Kiểm Tra Hàng Tuần	81.2%	79.6%	+1.6% (AI)
Tỷ Lệ Hoàn Thành Bộ Bài Tập	94%	87%	+7% (AI)
Thời Gian Trung Bình Mỗi Bộ Bài Tập (giờ)	3.2	4.1	-0.9 giờ (AI)
Sinh Viên Báo Cáo "Tự Tin Cao"	43%	67%	+24% (Con Người)
Tỷ Lệ Bỏ Học Từ Dạy Kèm	13%	23%	-10% (AI)
Số Câu Hỏi Đặt Ra Mỗi Phiên	18.7	8.3	+10.4 (AI)

Điều đầu tiên bạn sẽ chú ý: nhóm AI đã làm tốt hơn một chút trong kỳ thi cuối, nhưng nhóm con người đã làm tốt hơn trong các bài kiểm tra giữa kỳ. Mô hình này giữ vững dưới phân tích thống kê (p < 0.05 cho cả hai), và nó cho chúng ta biết điều gì đó quan trọng về cách học thực sự hoạt động.

Điều thứ hai: hãy nhìn vào khoảng cách tự tin đó. Sinh viên có gia sư con người cảm thấy tự tin hơn đáng kể, mặc dù hiệu suất của họ thấp hơn một chút. Điều này thật thú vị và lo ngại một cách ngang nhau.

Điều thứ ba: sinh viên học kèm AI đã đặt ra nhiều câu hỏi gấp đôi so với mỗi phiên. Họ cũng đã dành ít thời gian hơn cho các bộ bài tập trong khi vẫn duy trì tỷ lệ hoàn thành cao hơn. Họ hiệu quả hơn, nhưng họ có học tốt hơn hay chỉ là nhận được câu trả lời nhanh hơn?

Tối Thứ Ba Mà Tôi Suýt Ngừng Nghiên Cứu

Đó là tuần thứ 7, khoảng 9 giờ tối vào một ngày thứ Ba. Tôi đang ở văn phòng của mình xem lại các nhật ký cuộc trò chuyện từ nhóm học tập AI khi tôi phát hiện ra điều gì đó khiến tôi thấy không thoải mái.

Một sinh viên—tôi sẽ gọi cô ấy là Maya—đã dành 47 phút để làm một bài toán kiểm định giả thuyết với Claude. Nhật ký cuộc trò chuyện cho thấy cô ấy đã yêu cầu AI giải thích khái niệm, sau đó làm một ví dụ, rồi đặt câu hỏi làm rõ. Nó trông giống như một buổi dạy kèm kiểu mẫu.

Sau đó tôi nhìn vào bài kiểm tra của cô ấy từ thứ Sáu. Cô ấy đã làm sai câu hỏi kiểm định giả thuyết hoàn toàn. Không chỉ sai—cô ấy đã mắc lỗi chính xác ngược lại với những gì cô ấy đã thực hành với AI.

Tôi đã mở thêm năm nhật ký cuộc trò chuyện từ các sinh viên đã gặp khó khăn trong bài kiểm tra đó. Mô hình giống nhau. Họ đã "học" tài liệu với sự trợ giúp của AI, cảm thấy tự tin, rồi sau đó “bùng nổ” trong bài kiểm tra.

Tôi đã gọi một cuộc họp khẩn cấp với đối tác nghiên cứu của mình. "Chúng ta cần dừng lại," tôi nói. "Chúng ta đang để sinh viên thất bại."

Cô ấy mở dữ liệu từ nhóm học tâp con người. "Sarah, hãy nhìn vào điều này."

🛠 Khám Phá Các Công Cụ Của Chúng Tôi

Bộ Hẹn Giờ Học Tập (Pomodoro) - Tập Trung Hơn, Miễn Phí → Các Lựa Chọn Miễn Phí - edu0.ai → Máy Tạo Kế Hoạch Học Tập AI - Miễn Phí Trực Tuyến →

Nhóm học tập con người cũng gặp phải vấn đề tương tự. Thực ra, hiệu suất của họ trong bài kiểm tra cụ thể đó còn thấp hơn một chút. Vấn đề không phải là AI so với con người—mà là kiểm định giả thuyết thật sự khó, và một tuần dạy kèm (dù nguồn nào) không đủ để những sinh viên gặp khó khăn thành thạo nó.

Nhưng đây là điều khác biệt: sinh viên học kèm con người biết rằng họ không hiểu nó. Đánh giá về sự tự tin của họ thì thấp. Họ đến giờ hỗ trợ. Họ thành lập các nhóm học tập. Sinh viên học kèm AI nghĩ rằng họ đã hiểu vì AI đã khiến nó có vẻ dễ dàng trong khoảnh khắc.

Đây là sự hiểu biết đầu tiên thực sự của tôi: dạy kèm AI có thể tạo ra ảo tưởng về sự hiểu biết mà thực sự là nguy hiểm. AI rất giỏi trong việc đáp ứng các sinh viên tại nơi họ đang ở, trong việc phân tích mọi thứ, trong việc khiến các ý tưởng phức tạp cảm thấy dễ tiếp cận, khiến sinh viên không nhận ra rằng họ chưa thực sự tiếp thu tài liệu.

Tôi đã không ngừng nghiên cứu. Nhưng tôi đã thêm yêu cầu phản ánh hàng tuần cho nhóm AI: "Có một điều gì đó bạn nghĩ rằng bạn đã hiểu tuần này nhưng nhận ra bạn không?" Can thiệp đơn giản đó đã thay đổi mọi thứ.

Điều Gì mà Học Tập AI Làm Tốt Hơn (Và Không Như Bạn Nghĩ)

Vô hạn kiên nhẫn với những câu hỏi "ngớ ngẩn". Sinh viên đã yêu cầu AI giải thích cùng một khái niệm 5, 6, 7 lần mà không thấy xấu hổ

Try our free tools

Explore Tools →