医学書院／週刊医学界新聞【〔連載〕新医学教育学入門(19)（大西弘高）】（第２５５４号　2003年10月6日）

連載(19)	新医学教育学入門	教育者中心から学習者中心へ

評価にまつわる最新理論

大西弘高　国際医学大学（マレーシア）・医学教育研究室上級講師

（2552号よりつづく）

　山陰医科大学の内科講師である三方先生は学生時代国家試験対策委員をしていたことがあり，客観的評価に強い関心を示しています。以前の「週刊医学界新聞」の記事でわからない用語が出てきたので，医学教育研究部の日岡先生に質問にやってきました。

一般化可能性理論

三方　週刊医学界新聞の第2503号「医学教育もエビデンスに基づく評価の時代へ」や，第2530号「世界の医学教育の流れはポートフォリオ評価の時代へ」に，一般化可能性理論（generalizability theory）という用語が出てきました。これについて教えていただけないでしょうか。
日岡　わかりました。例えば，三方先生はテストの点数がどのくらい個人の実力を示すと感じますか？
三方　体調のよし悪しとか，ヤマの当たり具合で変化する可能性はありますよね。
日岡　統計学的な用語を使いますが，それをスピアマンは「測定値＝真値＋誤差」と表しました。誤差成分の分散が小さければ，テストとテストの相関は高くなります。真値の分散を測定値の分散で割った係数が信頼性を表します。
三方　よく言われる信頼性とは，こういう概念だったのですね。
日岡　そうです。例えば全国規模で行なわれるOSCEのことを考えてみましょう。学生のコンディションも誤差要因ですが，学生全員が同じ標準模擬患者を相手に試験をすることは実際上不可能なので，標準模擬患者の違いも誤差要因となります。さらに症例ごとに得意不得意があるでしょうから，これも誤差要因です。

　これらの誤差要因を分散分析の手法で分離しようとしたのがクロンバッハです。この手法により学生，標準模擬患者，症例毎の違いがそれぞれ誤差のどの程度に関与しているかを推定するG研究（generalizability study）が可能となります。G研究によって得られる一般化可能性係数は信頼性係数より若干大きくなりますが，信頼性を示す値の1つと考えて差し支えないでしょう。
三方　これによって，どういう利点があるのでしょうか？
日岡　例えば，症例数を増やした時に，どの程度の一般化可能性係数が得られるかをシミュレーションすること（D研究：decision study）が可能です。図1のようなグラフを見れば，何例用いれば一般化可能性係数が0.7を超えるかというようなことが一目瞭然となります。

項目反応理論

三方　次に項目反応理論（Item response theory:IRT）について教えてください。
日岡　これについて述べるには，まず客観的評価について考えてみるほうがいいでしょう。三方先生，何か例を思いつきますか？
三方　やっぱり医師国家試験ですか？
日岡　そうですね。客観的評価で重視されるのは信頼性が高く客観的であることと，教育目標により一致した内容を評価しうることです。医師国家試験では，多肢選択式問題（multiple choice questions）と自動的な採点により客観性を高め，問題数を多くして信頼性を高めています。
三方　教育目標については，「国家試験で問われることが教育目標」のような傾向があった感も否めませんが……。
日岡　そうですね。この点は，「国家試験で問われない内容は学習しても無駄だ」という風潮を生んだ可能性があります。項目反応理論は，あくまでも客観性を高めるための方法論と言えます。三方先生，例えば，問題1の配点が10点，問題2の配点が6点というテストがあったとき，その10や6という数字はどのようにして決まっていると思いますか？
三方　配点が多い問題のほうが重要っていうことでしょうか。
日岡　そういう意図なのでしょうね。でも，重要か重要でないか，その重みはどうつけるかということについて，何か理論的説明ができるでしょうか。
三方　そう言われると……よくわかりません。
日岡　では，次に難しい問題と簡単な問題の違いはわかりますか？
三方　簡単な問題は正答率が高く，難しい問題は低いということだと思います。

日岡　では，図2を見てください。問1は標準的問題です。横軸の「能力＝θ（シータ）」は，0が標準的能力の持ち主であることを示します。問1では，やや能力の低いθ＝－1の人は正解率15％程度，能力の高いθ＝1の人は正解率85％程度であり，差がはっきりしています。
三方　問2は平均的能力の人が正解率15％ほどなので，問1より難しい問題ということですか？
日岡　その通り。問2はθ＝1の人が正解率50％ですね。このように正解率が50％になるようなθの値を「項目難易度」と呼び，bで表します。問1はb＝0，問2はb＝1となります。でも，曲線の形は同じだという点に注意してください。
三方　問3もb＝0だと思うのですが，問1とはずいぶん曲線の傾きが違いますね。
日岡　問1と問3とでは問題の性質がどう違うかわかりますか？
三方　えーっと，例えばθ＝－2の人を仮定してみます。問1だと正解率は3％ほどです。でも，問3だと正解率が25％ぐらいですね。問3は正解した人としなかった人を比べてみて，能力の差がわかりにくいということでしょうか。
日岡　はい。これを項目識別力と呼びます。点対称の中心，あるいは変曲点における傾きが項目識別力を表し，これをaで表します。問1はa＝1，問3はa＝0.3という違いがあります。
三方　Raschモデルというのを聞いたことがあるのですが。
日岡　デンマークのG. Raschがロジスティック曲線を用いたモデルを1960年に発表しました。当初累積正規関数を考えていた人もいましたが，今ではロジスティックモデルが主流です。bだけを定める1母数モデル，bとaを両方定める2母数モデル，さらに5者択一問題の場合など当てずっぽうに答えても20％正解率が予測されることから，θを小さくしていった時に正解率が0.2に漸近するように修正した3母数モデルなどさまざまな段階のものがあります。Raschモデルは1母数ロジスティックモデルの別名です。
三方　従来の国家試験問題に関しても，各問題の識別係数が計算されたりしていたと思うのですが，何が一番違うのでしょうか？
日岡　aやbといった指標が明らかにされている問題を数百ほどプールすると，(1)違う問題を解いた受験者同士の能力を比較できる，(2)受験者のレベルに合わせたテストを随時準備できる，(3)テスト前にある程度テストの信頼性を予測できるといったテスト実施者にとって都合のよい性質があることですね。さまざまなロジスティック曲線で描かれた問題を複数組み合わせてテストを作った時，どの程度のθの人が何％正解するかがコンピューターによってすぐに割り出せるのです。
三方　日岡先生，今日の話は難しかったですが，とても興味深いなと感じました。こういう理論が実際の試験に応用される日が近いことを祈っています。

　米国では，OSCEを国家試験に導入するために，一般化可能性理論による研究を積み重ねてきました。また，医師免許試験（USMLE）では問題の検討などに項目反応理論が利用されはじめています。
　その他，項目反応理論は，欧米各国で標準的なテスト理論として高く認識されていますし，中国や台湾の統一試験運用にも使われはじめました。わが国でも留学用語学試験や入社筆記試験に使用例があるようです。

（この項つづく）

新医学教育学入門

評価にまつわる最新理論

一般化可能性理論

項目反応理論