医学界新聞

 

連載(16)

    新医学教育学入門

教育者中心から  
学習者中心へ
  

評価とは

  
大西弘高 国際医学大学(マレーシア)・医学教育研究室上級講師


2549号よりつづく

 評価はカリキュラム開発の最終ステージに位置しますが,評価そのものだけでもさまざまな切り口での検討が可能であり,意味するところは非常に大きいといえます。今回は,評価とは何か,教育においてどのような役割を果たしているかについて概要を述べたいと思います。

評価の意味合い

 わが国の医学教育関係者にとって,評価の1つの典型は医師国家試験といえるかもしれません。医師国家試験に合格しなければ医師としての人生はスタートできませんから,とにかく試験に通らなければならないという価値観が生まれる可能性があります。医師国家試験で合格点ギリギリだった人と,高得点者とでは後者のほうが能力が高いのか,後々に活躍しそうなのか,患者にとって「いいお医者さん」になれる可能性が高いのかといった点も関心を呼ぶかもしれません。
 これらから浮かび上がるさまざまな問題を整理してみましょう。
(1)評価は学習の結果を表しさえすればいいのか:学生を教育し終えてから評価している場合,教えた側は次の学生への教え方をどう変えるのかを考えることはできても,学生が学んでいる時に学び方や学んでいる内容について的確にアドバイスしたりはできません。
(2)教育目標や教えた内容が,評価と互いに対応し合っているのか:例えば,大学としては「患者から信頼される医師を育てる」という一般目標で教育を行なっていたはずなのに,卒業試験は国家試験と同じような内容の問題で五者択一問題を使っていたとすれば,「その評価で本当に患者から信頼される医師となったかどうかを確認できるの?」という疑問を持たれても不思議ではありません。
(3)学生は評価される内容に学習の照準を合わせてしまいがちなので,どうすれば教育者側が理想だと思える内容に関して評価ができるのか:国家試験でタキソノミーの知識面は問えても,態度やスキル,診断能力を確実に評価できているのかどうかという疑問が生じるでしょう。また,例えばOSCEを導入すればスキル面の評価はかなりできると思われますが,評価者や標準模擬患者による差が生じないのかといった懸念は生じやすいでしょう。
 (1)に関しては,形成的評価と総括的評価の考え方があります。形成的評価とは,カリキュラムの途中で改善を目的とした評価を行なうことです。学生を教育し終えてから評価するというのは総括的評価にあたり,進級や卒業といった判定を目的にした評価と言えます。上のような疑問が生じるのは,評価が「総括的評価」の意味でばかり用いられている時といえるでしょう。
 (2)は,「目標と評価の一体化」,「指導と評価の一体化」と呼ばれる非常に重要なポイントです。教育目標や教育方略が十分練られており,それが評価に反映されていればこの一体化の原則が守られるでしょう。なお,最近では,指導と評価の一体化という言い方だとあまり学習者中心的でないという意味から,「学習と評価の一体化」という用語を見かけることが多いようです。
 (3)は,前半は内容妥当性の問題です。全般的な能力を測定できれば申し分ないのですが,なかなかそのような理想的な評価法がないため,どうしても内容妥当性に問題を生みがちと言えます。また,後半には信頼性の問題も指摘されています。信頼性が低ければ妥当性は一定以上にはなり得ないため,まずある程度の信頼性を確保しなければ試験としての質は著しく損なわれることになります。

信頼性と内容妥当性の関係

 ここで,再度信頼性について考えてみましょう。信頼性とは,ある学習者に対する評価がどの程度一定で再現性を有しているかの程度を表しています。例えば,同じ難易度の国家試験を2週連続で受験したと仮定すれば,片方の点数がもう一方の点数とまったく結果が異なるというようなことがあってはいけないわけです。信頼性を高めるには,一問一問の設問に回答及び評価のあいまいさ,わかりにくさなどがないかどうかを確認する,問題を増やすか,項目間の内的一貫性を高める(アルファ係数を0.7以上にするなど)などの方法が採られます。
 それでは,国家試験において従来から行なわれてきたMCQ(Multiple Choice Questions:多肢選択式問題)と今後導入が予定されるOSCEで少し比較をしてみましょう。MCQでは,機械的に採点することが可能です。2人の評価者で二重にチェックするような必要はありません。一方,OSCEの各ステーションでは評価者間で評価が異なるといった例が散見され,このようなズレを完全になくすことは不可能です。よって,各項目ごとにみていけば,OSCEの信頼性ははるかに低いと言えます。
 さらに,MCQに比べ,OSCEでは項目数が少なくなってしまいます。国家試験ではMCQが500問となっていますが,OSCEではせいぜい10ステーション程度となる可能性が高いと思われます。10ステーションとしても,全国の学生が同じ標準模擬患者との試験に臨むわけではなく,標準模擬患者毎の差が生まれる可能性もあります。このように,OSCEは一定の客観性はあるものの,従来のMCQより信頼性が低いのは明らかです。
 しかし,信頼性が高いからといってOSCEをしなければ知識面しか評価できず,(2)の目標と評価の一体化,(3)の内容妥当性を達成することは著しく難しくなります。OSCEで態度面を測定することは難しいですが,知識面だけを測定するのと,知識面と技能面の両方を測定するのとでは,やはり後者のほうがはるかに広がりのある評価になるといえるでしょう。図1はそのことを模式的に表しています。もしMCQだけで評価が行なわれたならば,グループB,Dの両方の受験者が合格となります。しかし,グループDの受験者は知識はあるものの,技能は一定の水準に達していないのです。OSCEをすれば,グループBとグループDの受験者を判別することができます。
 今までは技能的な面を磨いてもそれを国家試験で評価される機会がなかったため,国家試験の合格を至上の目標としていた学生はともすれば技能面の習得に気乗りしなかったかもしれません。その点では,OSCEを導入することにより,以前よりは内容妥当性が向上し,目標と評価の一体化に一歩近づくといえるのではないでしょうか。
 なお,梶田は表面に見えている能力とそうでない能力とを分け,それを海に浮かぶ氷山に例えて表現しました(図2)。評価できているのは氷山の一角であり,残りの部分は水面下に隠れているというのです。内容妥当性の観点からはより深い部分を評価したい衝動に駆られるのですが,総括的評価では一定以上の信頼性が要求されるため,例えば態度面の評価というようなものは織り込むことが困難です。信頼性と内容妥当性の両立には限界があるということも知られています。よって,例えば態度面の評価は形成的評価において重視するなどの方法をとれば,指導的な意味からも非常にすばらしいといえます。次回は,さらに評価に関する視点を広げていきます。