💡 Key Takeaways
- The Study Design (And Why Most AI Education Research Is Garbage)
- The Numbers Everyone Wants to See
- The Tuesday Night I Almost Stopped the Study
- What AI Tutoring Does Better (And It's Not What You Think)
AI 튜터링 vs 인간 튜터링: 저는 두 가지를 한 학기 동안 테스트했습니다
저는 60명의 통계 입문 학생들을 두 그룹으로 나눴습니다. 14주 후, AI 그룹이 기말 시험에서 3.2점 더 높은 점수를 받았습니다. 하지만 이야기는 그보다 더 복잡합니다.
💡 주요 시사점
- 연구 설계 (그리고 대부분의 AI 교육 연구가 쓰레기인 이유)
- 모두가 보고 싶어하는 숫자
- 내가 연구를 거의 중단한 화요일 밤
- AI 튜터링이 더 잘하는 것 (생각했던 것과는 다름)
지난 가을, 제가 이 연구를 제 대학 IRB에 제안했을 때, 세 명의 동료가 시간을 낭비하고 있다고 말했습니다. "물론 인간이 이길 것이다," 한 사람이 말했습니다. "AI는 감정적 연결을 복제할 수 없다." 또 다른 사람은 열등한 튜터링으로 학생들에게 불이익을 줄 수 있는 윤리에 대해 경고했습니다. 세 번째는 그저 웃으며 말했습니다. "당신의 가설이 실패할 때 그걸 발표하는 건 행운이네."
그들 중 누구도 완전히 잘못된 것은 아니었습니다. 그러나 그들 중 누구도 완전히 옳지도 않았습니다.
저는 Dr. Sarah Chen이며, 11년 동안 중형 공립 대학에서 통계를 가르쳐왔습니다. 저는 모든 튜터링 트렌드가 왔다가 사라지는 것을 보았습니다—동료 튜터링, 플립드 클래스룸, 교육을 혁신할 것이라고 약속했던 적응형 학습 소프트웨어는 대부분 모두를 실망시켰습니다. ChatGPT와 Claude가 널리 사용 가능해졌을 때, 제 학생들이 학문적 정직성에 대한 경고에도 불구하고 숙제를 도와주기 위해 그것들을 사용하기 시작하는 것을 지켜보았습니다. 그것에 맞서기보다는 실제로 무슨 일이 일어나고 있는지를 측정하기로 결정했습니다.
이 논문은 14주간의 통제된 비교, 수백 시간의 관찰, 60명의 학생들과의 대화에서 제가 배운 것을 기록합니다. 그들은 실제로 그들이 배우는 데 도움을 주는 것이 무엇인지에 대해 놀랍도록 솔직했습니다.
연구 설계 (그리고 대부분의 AI 교육 연구가 쓰레기인 이유)
솔직히 말하겠습니다: AI와 인간의 수업을 비교하는 대부분의 연구는 방법론적으로 무의미합니다. 그들은 AI를 전혀 수업을 받지 않은 경우와 비교하거나(와우, 무엇인가가 없으니 이겼네요), 비싼 인간 튜터링을 무료 AI 도구와 비교하거나(와우, 가격만큼의 가치는 있다는 것을 알게 되네요), 아니면 두 주 동안의 결과를 측정합니다(와우, 신기한 효과가 존재하네요).
저는 이를 제대로 하고 싶었고, 이는 어려운 선택을 의미했습니다:
“교육 연구의 근본적인 문제는 변수를 통제하는 것이 비윤리적으로 느껴져서 우리는 두려워한다는 것입니다. 그러나 나쁜 연구를 수행하고 잘못된 결론을 도출하는 것은 오히려 비윤리적입니다. 이는 모든 사람의 시간을 낭비하고 잘못된 개입을 시행할 때 미래의 학생들에게 잠재적으로 해를 끼칠 수 있습니다.”
제가 다르게 한 점은 무엇인지 보겠습니다. 저는 추가 튜터링 지원을 자원한 통계 입문 과정의 60명의 학생을 모집했습니다. 60명 모두는 고전적 정의에 따라 첫 두 개의 퀴즈에서 70% 미만의 점수를 받아 힘들어하고 있었습니다. 저는 그들을 30명씩 두 그룹으로 무작위로 배정했습니다.
인간 튜터링 그룹은 제가 직접 교육한 대학원 조교와 매주 1시간씩 튜터링을 받았습니다. 이들은 무작위 튜터가 아니라—최고의 조교들이었습니다. 이들은 최소 2년 동안 통계 토론 섹션을 가르친 사람들이었습니다. 저는 그들에게 작은 연구 보조금에서 시간당 25달러를 지급했습니다.
AI 튜터링 그룹은 통계 튜터링을 위해 제가 특별히 개발한 맞춤형 시스템 프롬프트가 있는 Claude(Anthropic의 AI)에 접근할 수 있었습니다. 학생들은 매주 최소한 1시간씩 그것을 사용해야 했고, 저는 그들의 대화 기록을 통해 이를 확인할 수 있었습니다(그들의 동의로—모두 IRB 승인을 받았습니다).
중요한 부분은 다음과 같습니다: 두 그룹 모두 같은 주 수업을 받았습니다. 같은 강의, 같은 문제 세트, 같은 시험. 유일한 변수는 튜터링 개입이었습니다.
“무작위화할 의사가 없다면 실험을 하고 있는 것이 아닙니다—그냥 추가 단계를 수행하며 일화만 수집하고 있을 뿐입니다.”
저는 주간 퀴즈, 3개의 중간고사, 종합 기말 고사를 통해 결과를 측정했습니다. 4주, 9주, 14주에 모든 학생들과 구조화된 인터뷰도 실시했습니다. 그리고 대부분의 연구자들이 하지 않는 작업을 했습니다: 문제 세트를 완료하는 데 걸린 시간을 추적하고, 검증된 조사 도구를 사용해 학생들의 자신감을 측정했습니다.
이것이 완벽했나요? 아니요. 60명의 학생은 큰 샘플이 아닙니다. 한 학기는 유지력을 측정하기에는 너무 짧습니다. 그리고 저는 학생들이 할당된 튜터링 외부에서 무엇을 했는지를 통제할 수 없었습니다. 그러나 이는 실제로 어떤 것을 배울 수 있을 만큼 충분히 엄격했습니다.
모두가 보고 싶어하는 숫자
| 지표 | AI 튜터링 그룹 | 인간 튜터링 그룹 | 차이 |
|---|---|---|---|
| 기말 시험 점수 (평균) | 78.4% | 75.2% | +3.2% (AI) |
| 중간고사 평균 | 74.1% | 76.8% | +2.7% (인간) |
| 주간 퀴즈 평균 | 81.2% | 79.6% | +1.6% (AI) |
| 문제 세트 완료율 | 94% | 87% | +7% (AI) |
| 문제 세트 당 평균 시간 (시간) | 3.2 | 4.1 | -0.9시간 (AI) |
| “높은 자신감” 보고 학생 비율 | 43% | 67% | +24% (인간) |
| 튜터링 중 중퇴율 | 13% | 23% | -10% (AI) |
| 세션 당 질문 수 | 18.7 | 8.3 | +10.4 (AI) |
첫 번째로 눈에 띄는 점: AI 그룹이 기말 시험에서 다소 더 나은 성적을 거두었지만, 인간 그룹은 중간고사에서 더 나은 성적을 거두었습니다. 이 패턴은 통계 분석에서도 확립되었습니다(p < 0.05 모두), 그리고 이는 학습이 실제로 어떻게 작동하는지를 알려줍니다.
두 번째로: 그 자신감 격차를 살펴보세요. 인간 튜터와 함께한 학생들은 성과가 다소 낮았음에도 불구하고 상당히 더 자신감 있게 느꼈습니다. 이것은 매력적이면서도 걱정스러운 사실입니다.
세 번째: AI 튜터링 학생들은 세션당 두 배 이상의 질문을 했습니다. 그들은 문제 세트에 덜 소요되는 시간으로 높은 완료율을 유지했습니다. 그들은 더 효율적이었지만, 그들이 더 잘 배우고 있는 것인지 아니면 단지 더 빠르게 답을 얻고 있는 것인지 알 수 없었습니다.
내가 연구를 거의 중단한 화요일 밤
그것은 7주 차의 화요일 밤 9시경이었습니다. 저는 사무실에서 AI 튜터링 그룹의 대화 기록을 검토하고 있었는데, 제 배가 아픈 것을 발견했습니다.
한 학생—그녀의 이름을 Maya라고 하겠습니다—가 Claude와 하이픈 검증 문제를 해결하는 데 47분을 보냈습니다. 대화 기록에는 그녀가 AI에게 개념을 설명해 달라고 요청한 후, 예제를 풀어보고, 명확하게 질문을 한 것이 표시되어 있었습니다. 그것은 모범적인 튜터링 세션처럼 보였습니다.
그리고 그 금요일의 그녀의 퀴즈를 보았습니다. 그녀는 하이픈 검증 질문을 완전히 잘못 답했습니다. 단순히 틀린 것이 아니라—그녀는 AI와 연습한 것과 완전히 반대의 오류를 범했습니다.
저는 그 퀴즈에서 어려움을 겪었던 학생들의 다섯 개 대화 기록을 불러왔습니다. 같은 패턴이었습니다. 그들은 모두 AI의 도움으로 자료를 "배웠고", 자신감을 느꼈다가 평가에서 망쳤습니다.
저는 연구 파트너와 긴급 회의를 소집했습니다. "우리는 이걸 멈춰야 해요," 제가 말했습니다. "우리는 학생들이 실패하도록 내버려 두고 있습니다."
그녀는 인간 튜터링 그룹의 데이터를 호출했습니다. "Sarah, 이걸 봐."
인간 튜터링 그룹에도 같은 문제가 있었습니다. 실제로 이 특정 퀴즈에서 그들의 성과는 다소 나빴습니다. 문제는 AI 대 인간이 아니었습니다—하이픈 검증은 정말로 어려운 문제이며, 일주일의 튜터링(출처에 관계없이)으로 힘든 학생들이 이를 마스터하는 데는 충분하지 않았습니다.
하지만 달라진 점은 다음과 같습니다: 인간 튜터링 학생들은 자신들이 이해하지 못한다는 것을 알고 있었습니다. 그들의 자신감 수준은 낮았습니다. 그들은 오피스 아워에 참석했습니다. 그들은 스터디 그룹을 형성했습니다. AI 튜터링 학생들은 AI가 순간적으로 쉽게 느끼게 해주었기 때문에 자신들이 이해했다고 생각했습니다.
이것이 제 첫 번째 진정한 통찰력입니다: AI 튜터링은 실제로 위험한 이해의 환상을 생성할 수 있습니다. AI는 학생들이 있는 자리에서 만나고, 문제를 분해하고, 복잡한 아이디어를 접근할 수 있도록 만드는데 매우 능숙하여, 학생들은 실제로 자료를 내재화하지 않았다는 것을 깨닫지 못합니다.
저는 연구를 중단하지 않았습니다. 하지만 저는 AI 그룹에 대해 매주 반성 요구 사항을 추가했습니다: "이번 주에 이해했다고 생각했던 한 가지는 무엇이며, 실제로는 이해하지 못했다는 것을 깨달았습니까?" 그 간단한 개입이 모든 것을 바꿨습니다.
AI 튜터링이 더 잘하는 것 (생각했던 것과는 다름)
- “어리석은” 질문에 대한 무한한 인내. 학생들은 같은 개념을 AI에게 5번, 6번, 7번 설명해달라고 요청하며 부끄러워하지 않았습니다.
Try our free tools
Explore Tools →