コンピュータ適応型テスト

コンピュータ適応型テスト（コンピュータてきおうがたてすと, Computer-adaptive Testing, Computerized adaptive test) 略称CATは項目応答理論（略称IRT)によって推定されたパラメータの付与された問題項目（アイテム）をアイテムプールに置き、受験者の回答パターンに応じて、困難度の異なるアイテムを選んで出題することにより、動的、短時間、高精度で受験者特性の測定を判定を行う方法である。受験者ごとに異なる問題を解いても、能力推定値つまり得点の信頼性は、項目応答理論により保証される。

項目応答理論によるパラメータ

項目応答理論の詳細については、当該記事を参照。CATにおいては、困難度パラメータを用いるラッシュモデル(1PLモデル）、困難度パラメータと識別力パラメータを用いる2PLモデル、困難度パラメータ、識別力パラメータ、当て推量パラメータを用いる3PLモデルのいずれかが採用される。項目応答理論には4PLモデルもあるが、CATとして運用されているものに4PLモデルはない。

プレテスト

プレテスト(Pre-Test)は、IRTにより各アイテムのパラメータを推定するために行われる。採用するIRTのモデルにより必要とされるサンプル数、つまり受験者数が異なる。回答データの質にも左右されるが、目安としては1PLモデルで100～200以上、2PLモデルで200～400以上、3PLモデルで1000～2000以上とされる^[1]^[2]。プレテスト後の分析では、アイテムの質についても検討され、アイテムとしてふさわしくないものがふるいにかけられる。

モデル選択

CAT構築に環境が整った大規模なテストでは3PLモデルが採用されることがあるが、プレテスト実施上の制約等により、1PLモデルあるいは2PLモデルが選択されることが多い。

アイテムプール

プレテストにより、パラメータが付与されたアイテムはアイテムプール(Item Pool)、またたアイテムバンク (Item Bank)に蓄えられる。アイテムプールの漏洩があればテストとして機能しなくなるため、アイテムプールのセキュリティ確保が重要になる。

暴露制御(Exposure control)

CATでは、アイテムが繰り返し使われる。しかし、特定のアイテムの使用頻度が高いのは好ましくない。このため、使用の偏りがないように制御することをエクスポージャ･コントロール（日本語訳「暴露制御」はまだ定着していない）という。また、長い間の運用で、いずれのアイテムも使用回数が増えていく。使用回数が一定以上になったアイテムは、アイテムプールから引退することによって、アイテムプール全体の暴露制御も行われる。

適応型(Adaptive)の仕組み

適応型の仕組みを理解するには、視力検査の比喩が役立つ。視力検査では、ランドルト環が使われる。それぞれのランドルト環の隙間が一定の距離から見えた場合、1.0、1.5などと視力が判定される。それぞれのランドルト環に与えられた1.0、1.5などが項目困難度に相当する。検査官は被験者の「見える」「見えない」の答えによって、より大きい環やより小さい環を指し示す。これは被験者の回答により、困難度の異なるアイテムを出題するのに相当する。視力検査ではこの過程を繰り返しながら被験者の視力を判定するが、これが適応型の方法に相当する。

スコア

項目応答理論での項目困難度(bパラメータ）と能力推定値(θ)は理論的には±無限大である。しかし、実際のデータでは項目困難度が極端な値をとることは少ない。そのため、能力推定値も-3.0から+3.0程度の値を取る。一般にはこのθの値をそのまま示しても解釈が困難であるため、これを線形変換して得点として示す。この換算式を変えることにより、得点は10点満点でも1000点満点でも示すことができる。

CATとCBT

CATと似た用語にCBT(Computer Based Test)があるが、これは適応型である必要はなく、コンピュータ上で実施されるテスト一般(e-テスティング)を指す。例えば、紙で実施していたテストをデジタル化してコンピュータ上で実施してもCBTと呼ばれる。

CATを使った主なテスト

TOEFL-CBT 新形式のTOEFL-iBTの実施に伴い、廃止。なお、TOEFL-iBTはCBTではあるがCATではない。
CASEC　日本語母語話者のための英語のテスト
SPI2 就職採用テスト
J-CAT　非日本語母語話者のための日本語のテスト
GMAT MBA受験用の標準試験

参考文献

^ *Waller, Michael I.(1981). “A Procedure for Comparing Logistic Latent Trait models”. Journal of Educational Measurement18-2:119-125.
^ *Parshall, Cynthia G.; Kromrey, Jeffrey D.; Chason, Walter M.; Yi, Qing (1997)　"Evaluation of Parameter Estimation under Modified IRT Models and Small Samples". Paper presented at the Annual Meeting of the Psychometric Society

外部リンク

[1] *Waller, Michael I.(1981). “A Procedure for Comparing Logistic Latent Trait models”. Journal of Educational Measurement18-2:119-125.

[2] *Parshall, Cynthia G.; Kromrey, Jeffrey D.; Chason, Walter M.; Yi, Qing (1997)　"Evaluation of Parameter Estimation under Modified IRT Models and Small Samples". Paper presented at the Annual Meeting of the Psychometric Society

[1]

[2]