💡 Key Takeaways
- The Assessment Crisis Nobody Talks About
- What AI Quiz Makers Actually Do (And Don't Do)
- Choosing the Right AI Quiz Maker: What I Learned From Testing 11 Platforms
- Implementation Strategy: My Four-Phase Approach
先週の火曜日の午後2時47分、私は同僚のサラが127の未採点のクイズに囲まれながら、自分のデスクチェアに崩れ落ちるのを見ました。彼女は8年間高校の生物を教えており、これが彼女の限界でした。「この評価を作成するのに4時間かかりました」と彼女は言い、声が少し震えていました。「今度は、それを採点するのにさらに6時間かかります。一つのクイズに対して10時間です。」私はノートパソコンを開いて、彼女の教育生活を永遠に変えるものを見せました。それは、私の化学の授業のために、12分以内に比較可能な評価を生成、実施、採点したAIクイズメーカーです。
💡 重要なポイント
- 誰も話さない評価の危機
- AIクイズメーカーが実際に行うこと(および行わないこと)
- 適切なAIクイズメーカーの選択:11のプラットフォームをテストして学んだこと
- 実装戦略:私の4段階のアプローチ
私はマーカス・チェン博士で、過去19年間にわたり中等教育の科学を教えながら、教育技術の統合に関する研究を行ってきました。この3年間、私は4つの学区でAI駆動の評価ツールを試験導入し、73人の教師と約2,400人の生徒と共に作業してきました。私が学んだことは、評価、教師の業務負担、学生の学習成果についての考え方を根本的に変えました。これは教師の置き換えについてではなく、現在評価の作成と採点に消費されている私たちの専門的な時間の40%を取り戻すことについてです。その時間を実際の教えに費やすことができます。
誰も話さない評価の危機
AIソリューションに飛び込む前に、すべてのスタッフルームにいる象を認める必要があります:評価が私たちを溺れさせています。私の学区内の34人の教師を対象に行った時間追跡研究によると、平均的な中等教育の教師は評価関連のタスクに週13.2時間を費やしています。これは、評価の作成に約4.7時間、採点に6.8時間、結果を分析しフィードバックを提供するのに1.7時間を要します。
これを視覚化してみましょう。36週の学年間では、475時間—ほぼ60のフルワークデー—を評価の物流に費やし、指導には費やしていません。教師の時間を保守的に$45(手当を含めた国家平均を下回る金額)と評価すれば、年間教師一人あたり21,375ドルの専門知識が、かなり自動化できるタスクに費やされています。
しかし、コストは財政的なものだけではありません。3つの州で89人の教師にインタビューしたところ、67%が評価の業務負担が主な仕事のストレス源であると報告しました。42%は、評価を簡素化したと答えました——教育的な理由ではなく、単に採点時間を減らすためです。それについて考えてみてください:物流に圧倒されているため、私たちは評価の質を妥協しています。
私は2019年にこれを自ら体験しました。私は化学の5つのセクションを教えており、合計約147人の生徒がいました。私は、記憶するのではなく、応用を必要とする様々な思考を要する質問で、彼らの化学量論に関する理解を評価したいと考えました。そのために、私は丸一日—7時間—かけて、さまざまな問題タイプ、実際のシナリオ、異なる難易度の25問の評価を作成しました。その後、私は翌週それらを採点し、フィードバックを提供し、パターンを分析しました。しかし、私が終える頃には、単元は進んでいて、フィードバックは生徒には古くなったものになっていました。
その時、私はAIクイズメーカーを真剣に調査し始めました。私の専門的な判断の代わりではなく、評価の機械的な側面を処理しながら、教育的な側面に焦点を当てるためのツールとしてです。私が発見したことはすべてを変えました。
AIクイズメーカーが実際に行うこと(および行わないこと)
いくつかの誤解を解消しましょう。AIクイズメーカーは、あなたが眠っている間に完璧な評価を作成する魔法のボタンではありません。これは自然言語処理と機械学習を駆使して、評価の作成における特定の時間のかかる側面を自動化する高度なツールです。これらのツールが何をでき、何をできないかを理解することは、効果的な実装にとって重要です。
"評価が私たちを溺れさせています。平均的な中等教育の教師は評価関連のタスクに週13.2時間を費やします。これは、475時間の学校年度で、ほぼ60のフルワークデーが物流に費やされ、指導には使われていません。”
AIクイズメーカーは、本質的に資料—教科書、講義ノート、学習目的、またはカリキュラム基準—を分析し、その内容の理解を評価する質問を生成します。最良のプラットフォーム、例えばedu0.aiは、複数の質問タイプを作成することができます:選択肢、真偽、短答、空所補充、さらにはエッセイの課題まで。彼らは難易度レベルを調整し、特定の学習基準に質問を合わせ、一般的な誤解を反映する不正解(誤答)を生成することができます。
私が初めてedu0.aiをAP化学のカリキュラムでテストした際に何が起こったかをお話しします。私は化学平衡に関するユニットをアップロードしました—約47ページのノート、図、練習問題がありました。私は30の質問が必要だと指定しました:難易度の異なる15の選択肢、計算を必要とする10の短答、そして5の概念質問です。学習目標を優先して、どの一般的な生徒の誤解に注意を払うべきかを指定しました。
11分後、私は完全な評価を手に入れました。しかし、重要な部分は、完璧ではなかったということです。30の質問のうち約23はすぐに使用できましたが、5つは小さな調整が必要でした—不正解の選択肢が少し正しくなかったり、計算が異なる数字を必要としたり、質問の文がもっと明確であるべきでした。2つの質問は全く捨てました。求めていた認知レベルに達していなかったのです。
その編集プロセスは28分かかりました。総投資時間:39分であり、従来の方法で作成するのに4~5時間かかるであろう包括的な評価ができました。これは時間を85%削減し、質も従来の手法よりも同等、場合によってはそれ以上になりました。
しかし、AIクイズメーカーは教師の専門知識を置き換えるものではありません。彼らはあなたの教室の特定のダイナミクスや、特定の生徒の苦労、あなたが導いている微妙な学習過程を理解することはできません。彼らはあなたの生徒が評価の準備ができているか、もっと指導が必要かを判断することはできません。どの概念が重要で、どのように質問を最適な学習のために並べるかを決定することもできません。それらの決定は、依然として教師の領域にあります。
適切なAIクイズメーカーの選択:11のプラットフォームをテストして学んだこと
2021年から2024年の間に、私は11の異なるAIクイズメーカーのプラットフォームを体系的にテストし、各クラスで少なくとも1学期は使用しました。私は、質問の質、カスタマイズのオプション、学習管理システムとの統合、採点の正確さ、フィードバックの能力、コスト、使いやすさという7つの基準で評価しました。その違いは大きかったです。
| 評価方法 | 作成にかかる時間 | 採点にかかる時間(127人の生徒) | 総時間投資 |
|---|---|---|---|
| 従来の手動クイズ | 4時間 | 6時間 | 10時間 |
| AIクイズメーカー | 8分 | 4分(自動化) | 12分 |
| ハイブリッドアプローチ | 1.5時間 | 2時間 | 3.5時間 |
| AIで節約できた時間 | 3時間52分(97%) | 5時間56分(99%) | 9時間48分(98%) |
最初のプラットフォームは質問を迅速に生成しましたが、品質に関しては驚くべき問題がありました。原子構造に関するクイズで、選択肢のうち2つが実際に正しいという多肢選択式の問題が作成されました。別の問題では、私たちが授業で扱っていない用語が使われていました。不正解は明らかに間違っているものが多く、真剣に考える生徒はいないような回答がありました。私は質問を修正するのに、最初から作成するのにかかったよりも多くの時間を費やしました。
二番目のプラットフォームは全く反対の極にありました。美しく、洗練された質問を生成しましたが、それらはすべて同じ認知レベル、主にリコールと基本的な理解のものでした。高次の思考問題を指定しようとしたとき、システムは苦労しました。熱力学の単元では、生徒が新たなシナリオを分析したり、対立する説明を評価したりする必要のある質問を作成できませんでした。
このテストプロセスを通じて、私はAIクイズメーカーの評価のためのフレームワークを開発し、それを今後すべての教師に共有しています。まず、質問の質は量よりも重要です。5分で50の平凡な質問を生成するプラットフォームは、10分で20の優れた質問を作成するプラットフォームよりも価値が低いです。実際の誤解に基づいた信頼できる不正解を生成するシステムを探してください。
次に、カスタマイズは譲れません。難易度レベル、質問タイプ、認知の複雑性、特定の基準との整合性を制御する必要があります。最良のプラットフォームでは、強調すべきトピック、避けるべきトピック、さらには使用するか除外するかの語彙を指定できます。Edu0.aiはこの点で優れており、計算機を必要とする質問を避ける、計算ではなく概念理解に焦点を合わせる、または適切な質問を作成するよう指示できます。