これまで日本の全国学力調査は紙ベースで行われてきたが、国際的な学力調査はCBT化が進んでいる。
OECDのPISA(国際学習到達度調査)は2015年からCBT化。国際教育到達度評価学会(IEA)のTIMSS(国際数学・理科教育動向調査)も19年にCBTが選択可能になり、日本は紙ベースで参加したが、23年からはCBTに全面移行する。国内では、埼玉県が今年9月に県独自の学力調査をCBTで試行すると発表。京都府もCBTシステム構築に向けて今年度から2年間の実証研究を始めるなど、CBTへの関心は高まっている。全国学力調査のCBT化検討も、この流れに沿ったものだ。
CBT化により、調査する側は問題用紙の印刷や輸送に伴うコストが削減でき、マークシートの読み取りエラー、子どものマークミスも解消され、より精度の高い調査が期待できる。受験側も、記述式を除けば、テスト終了後すぐに評価を知ることができる。また、視覚障害のある子どもに文字の拡大や問題の読み上げをしたり、不登校の子どもが自宅で受験できるなど、困り事を抱える子どもも参加しやすい。「現行の学力調査で調査対象外になっている、紙ベーステストに対応が難しい子どもたちを対象に取り込める意義はあると思う」と福岡教育大学教育学部准教授の川口俊明氏は話す。
・問題用紙の印刷、輸送のコストが削減できる
・マークシートの読み取りエラー、マークミスがなくなり精度の高い調査ができる
・テスト終了後、すぐに評価を知ることができる
・視覚障害のある子どもに文字の拡大や、問題を読み上げることができる
・不登校でも自宅で受験できるなど、困り事を抱える子どもも参加しやすい など
だが、こうしたメリットは「GIGAスクール構想の推進で実現した1人1台端末を活用するため、CBT化を推進するという前提で、後付けで考えられた感が強い」と川口氏は語る。
全員調査をどのように設計するのか
国の学力調査は毎年、全国の小学6年生と中学3年生の児童生徒全員を対象とする学力調査(悉皆〈しっかい〉調査)が本体調査として行われている。
これに加えて、2013年、16年、21年度に経年変化分析調査、13年、17年、21年度に家庭状況と学力等との関係を分析するための保護者調査が補助的な調査として抽出方式で実施されてきた。
専門家会議では、それぞれ別個に行われていた経年変化分析調査と保護者調査の2つの抽出調査を1つにまとめ、悉皆調査との「二本柱」に整理することを提言。ワーキンググループは次回、24年度の経年変化分析調査からの順次導入を提言した。川口氏は「経年変化分析調査は、全体の学力の時系列的な変化を測る明確な目的があり、現行の調査の設計を踏襲すればいい。問題は本体の悉皆調査だ」と指摘する。
悉皆調査の目的は、対象学年の児童生徒の全体的な学力を測って教育政策を検証するデータに使うという考え方や、受験した児童生徒の教育指導の改善に役立てるという考え方など「いくつもの目的があり、すべての目的を満たすようなテストの設計が困難」(川口氏)だからだ。
国際的な学力調査は、全体の学力を測るという目的に特化して、統計的にテスト問題の難易度を調整する項目反応理論(IRT)というテスト理論を使っている。受験者が正解すれば、事前に数多くの問題を用意した問題プールの中から、問題のレベルを上げて出題するコンピューター適応型テスト(CAT)を導入すれば、より正確な学力測定が可能になる。
また、限られた時間・問題数で、すべての領域から出題することはできないので、一部を重複させながら、難易度を調整した異なる領域のいくつかのパターンのテストに分かれて解答してもらう重複テスト分冊方式で、全体の学力を幅広い領域で効率的に測っている。こうしてIRTを使えば、年ごとに平均点が変化する理由から、出題した問題の難易度の差という要因を排除でき、過去の結果と学力を比較することも可能になる。日本の経年変化分析調査も重複テスト分冊方式を採用している。
全体の学力レベルを測ることが国の学力調査の主目的と考える川口氏は「国レベル全体の学力を測るなら、統計学的な抽出調査のほうが望ましく、コストをかけて国が悉皆調査をする意味がない」という立場だ。児童生徒個人の学力や到達度を測りたいなら「学校の教員が100点満点のテストを作って実施すれば済む」と語る。しかし、教育指導に役立てるという目的も掲げられて、これまで悉皆調査が行われてきた。
現在の日本の教育と、IRTを使ったCBTは相性が悪い
CBT化が、紙ベースのテストを単純にコンピューターベースにするだけなら話は比較的簡単だが、せっかくCBT化するのであれば、IRTによってCAT を導入して先進的なテストにしたいという期待は強く、CBTとIRTは分かちがたい関係にある。しかし、IRTを教育指導に活用しようとしても「現在の日本の教育と、IRTを使ったCBTは相性が悪い」と川口氏は指摘する。
相性が合わない1つの理由は、IRTを利用すると得点が算出される過程が複雑になるからだ。わかりやすい100点満点のテストに慣れ親しんだ学校現場で理解されるためには、学校現場のリテラシーが必要になる。
もう1つの理由は、受験者の回答に応じて難易度の異なる問題を出題するCATでは、受験者の学力に応じてテストの難易度を変更し、受験者が小学4年生であっても、正答できるなら小学5年生や小学6年生の問題も解いてよいという状況が生まれる。
これは、決められた能力を確実に身に付けさせようという学習指導要領の考え方にはそぐわない。さらに、異なる内容のテストの結果を比較可能にするというIRTの利点を生かすには問題を原則非公開にする必要がある。これも、テストに出題された問題を復習に利用することが多い日本の教育と相性が悪い。IRTを利用するなら、その特性とデメリットを十分に理解したうえで導入する必要がある。
ワーキンググループは悉皆調査について、経年変化分析調査の翌年の25年度以降、できるだけ速やかに中学校から導入することを提言した。文科省は今秋、開発を進めている学びの保障オンライン学習システム(MEXCBT:メクビット)を使って、学力調査のCBT化に向けた試行・検証作業を始める。一部の自治体もCBT化の試行を始めるが、学習指導要領、学校現場とIRTとの整合性については注意する必要がありそうだ。学力調査のCBT化は、まだまだ多くの解決すべき課題が残されている。
(文:新木洋光、注記のない写真はiStock)