医学界新聞

 

医師養成試験問題のプール化に国際共同作業がスタート

医学教育もエビデンスに基づく評価の時代へ

第10回オタワ医学教育国際会議より

吉田一郎(久留米大・医学教育学)
大西弘高(イリノイ大・医学教育部)
上野隆登(久留米大・先端癌研究治療センター)


 世界の医学教育における最も大きな学会の1つであるオタワ医学教育国際会議(International Ottawa Conference on Medical Education,URL=www.ottawa10th-at-home.org)は,第10回を記念して発祥の地であるカナダの首都オタワで60か国,830名の参加者を集め7月13日から16日まで開催された。7月のオタワは,初秋を思わせるすがすがしさで,魅力的なプログラムに満ちあふれ充実した4日間であった。にトロント大学のReznick氏が集計した演題の内容別分類を示した。最多はカリキュラムに関するものであり,カリキュラムが今なお,医学教育における最も重要な基本的なテーマであることが理解できる。




Hart会長
同氏の個人的努力がオタワ会議を世界最大級の医学教育国際会議に発展させた
 会長のHart氏(オタワ大教授)によれば,この学会の起こりは1985年にオタワ大学でOSCEを導入しようとした時,評価法についてOSCEの創始者である英国のHarden氏に相談したことにあると言う。したがって,Hart氏とHarden氏が本学会の創始者とされている。オタワ会議が,このように「評価」をきっかけにスタートした学会であることは特筆すべきで,今回のハイライトの1つは,「エビデンスに基づく評価法の新しい展開」であった。
 またワークショップ(以下WS)を含むプログラムで目についたのは,医師養成における「プロフェッショナリズムの教育の重要性」であり,マクマスター大学の3年目に入った新しいカリキュラムも紹介された。プロフェッショナリズムは,今後の医学教育が取り組む重要な課題と考えられた。
 この会議への日本からの参加者は少なかったが,会議の重要性を考え今回参加した3人で会議の内容を紹介してみた。

1.魅力的なプレワークショップ,OSCEの評価にG理論の導入

 学会に先立つ12日には,プレWSとして5つのWSが同時進行で開催された。その1つ,「基礎医学教育と医学教育」では,カナダのサスカチェワン大学のD'Eon氏が中心となり,参加者を(1)PBLアプローチ,(2)クリニカルプレゼンテーション,(3)ハイブリッドアプローチ,(4)システム(もしくは身体)基盤型,(5)伝統的な科目基盤型の5つのグループに分けた。そして,わが国のKJ法に似たsilent brain stormingを用いて,5つのタイプの長短について討議した。
 WSへの参加者は多彩で,カナダ出身でオランダ在住経験を経て,現在はベトナムの8つの医学部で卒前医学教育のカリキュラム作りに携わっている女性や,米国からサウジアラビアの医学教育発展のために赴任している者など,欧米から医学教育改革のために多くの人材が国境を越え,直接相手国に出向いていることがわかった。
 一方,日本から世界各地の医学部の教育カリキュラム改革に直接出向き,滞在する者がきわめてまれである現状は,考えさせられた。参加者のそれぞれの大学では,少しでも統合型カリキュラムを増やすため,PBLを増やしたり,臓器別カリキュラムでは臨床に結びつけるために,PhDによるレクチャーの場合は,できるだけMD,PhDの大きなプールから人を選び,一緒に講義をするなど,さまざまな統合型教育への工夫が紹介された。また統合型教育への系統的なアプローチの例として,近年カリキュラムの大改革を施行した英国マンチェスター大学医学部のIndex of clinical situationも紹介された。いずれにしてもハーバード大学医学部での基礎医学教育で施行されているようなclinical settingで医学生の興味をかきたて,基礎医学と臨床医学を融合させる学習方法が,現在の大きな流れであることを再認識した。
 午後の「臨床能力における一般化可能性理論」では,米国の民間団体である医師国家試験機構NBME(National Board of Medical Examiners)のSwanson氏とClauser氏が,OSCE評価におけるgeneralizability theory(一般化可能性理論=G理論)を紹介した(URL=www.NBME.org)。これは,臨床能力評価には多くの測定エラーがつきもので,古典的なスコア方式では対応できず,特に少ないステーションでの評価を一般化するために,本理論の導入が必要である。すなわち,OSCEで医学生の行為を観察しチェックリストに記入するのは,本当のスコアの表面的な一部分にすぎないこと,さらには評価者間の一致度だけでなく,1人の評価者が10人の医学生を評価する場合,さらにステーション数を増やした場合の問題,事例間の一致度など評価には多くの解決すべき課題のあることが指摘された。

2.学生教育のプロとしてのトレーニングが求められる大学医学部医師

 学会初日(13日)の午前中は,6つのシンポジウムが同時開催され,他に4つのInvited Topics,4つの展示プログラム,一般口演,午後はポスターセッション,8つの同時進行のWS,2つのInvited Topics,ポスター発表の討論など,2日目以降同様ぎっしりと詰まった内容であった。
 シンポジウムの「医学教育のリーダーの養成」では,主にイリノイ大学(Bordage教授)とダンディー大学(Harden教授)の養成コースが紹介された。前者ではmasterのみであるが,後者ではcertificate,diploma,master(修士),doctor(博士)の4段階で学べる。イリノイ大学(URL=www.uic.edu/com/mcme/mhpe.htm)では,リーダーシップと研究に重点を置き,ダンディー大学(E-mail:c.m.e.courses@dundee.ac.uk)では,自らが教育者として作用するという面に重点が置かれていると言う。Harden氏は,「Dr. by chance(たまたま大学で教育を担当することになった教育には素人の医師)」や「Dr. as before(30年前と変わらない今まで通りの教育をしている医師)」という皮肉をきかせたユーモラスな表現で,旧態依然の医学教育では時代の要求に対応できないこと,これからの学生教育に携わる医師は,従来のアマチュアではなくプロとしてのトレーニングが必要なこと,さらには医学教育には楽しみがあり,エキサイティングであることが強調された。
 午後のWS「模擬患者を用いた患者教育,評価とフィードバック」では,チューレーン大学のLazarus教授により,評価項目,フィードバックのかけ方が示された。意味を持たせた声の抑揚など米国の模擬患者の見事な演技を見ていて,わが国の模擬患者のボディランゲージ,表情の乏しいことに気がついた。研修医が適切なフィードバックにより見事な患者教育が可能になることが段階的に示された。OSCEの創始者であるHarden氏は,今後は平気でうそがつけたり,衣服を脱がされたりすることに抵抗がなく,身体診察も可能な模擬患者の養成が必要と強調された。

3.医学教育に必要な「試験方法,評価の専門家」の養成,ますます高まる認知科学の重要性

 今回の学会のハイライトの1つは,2日目のプレナリーセッションでのマサチューセッツ大学Hambleton教授の「医学教育における評価の進歩」で,最も驚かされたセッションであった。教授は,医師国家試験や認定医試験のようなHigh-stake test(高い信頼性,妥当性を要求するタイプの総括的評価試験)の変遷についてレビューされた。評価の標準化の方法として,1975年におけるアンゴフ,イーベル,ネデルスキーなどによるボーダーライングループの決め方,1つだけの合格点の設定,多肢選択などから,2002年の時点では,Multiple Cut-ScoresやMultiple Item Typesの時代になったことが強調された。すなわち,多変量の相関や回帰,心理統計学的なより複雑な統計解析という時代を経て,コンピューターによる情報処理が必須な時代となった。データを複雑な統計手段で扱うモデルとして,RaschモデルすなわちIRT(item response theory=項目応答理論における1パラメータ・ロジスティックモデル),GT(generalizability theory),SEM(standard error measurement)への取り組みの必要性,また出題方法として,ビデオやオーディオによる提示,スクリーンにタッチさせるもの,受験者の選択や要望にかなう出題方式などが紹介された。CBTにおける今後のチャレンジのあり方,「測定の専門家」の養成の必要性,今後10-20年で評価,試験方法が大きく変わること,エビデンスに基づく評価の時代になったことが強調された。いずれにしても評価の標準化のためのキャリブレーションは,今後ますます重要になろう。また評価を数学的に洗練化するだけでなく,テスト理論,認知科学,統計学の統合的視野がますます必要であるという理論も納得できるところだった。
 これに対し,ロンドン大学のSouthgate氏は,General Practitioner(GP)の監査をテーマとし,普段の診療の場における診療録監査プラスその内容に関する質問,専門医とGPのペアによるピアレビュー,そして試験センターにおける認知能力客観テストやOSCEをいかに組み合わせるかを述べた。
 2日目のWS,米国NBMEのSwanson氏による「ビネットを用いる良質のMCT=多肢選択試験の作成法」に参加した。WSでは,MCTの作成方法の一般的な注意事項,いわゆる受験テクニックに強い受験生に有利にならない出題方法が紹介された。また受験生を混乱させる悪問の見本をつぎつぎに示され,どのように修正すればよいかが参加者に問われた。また単なる記憶力を問うのではない問題とは何かなど,参考になるWSであった。MCTにおける問題作成で最も大切なことは,受験生にコンセプトを気づかせるようなテスト問題が望ましいことが強調された。米国では,医師国家試験には民間団体のNBMEが実質的に担当し,評価や統計,認知科学の専門家を多数(約350名)擁して,絶えず「質の管理」が行なわれている。
 「OSCEを超えて,臨床能力の包括的な評価方法」のWSでは,ロチェスター大学のEpstein氏がOSCEの欠点である断片的な臨床能力評価を克服するため,より包括的な評価方法が必要なこと,ロチェスター大学での二重螺旋カリキュラムで実際に施行しているSPを用いる8つのステーション(1ステーション=20分)を含め,いろいろの評価(EBM演習,シミュレータを用いる演習,コンピュータでの場面設定での演習など)の組み合わせにより,MCQやOSCEを乗り越えて臨床能力を包括的に評価していることが紹介された。
 3日目のプレナリーセッションでは,「ファカルティデベロップメント=FD(以下FD)は違いを生み出すか」というテーマでスタンフォード大学のSkeff氏を中心に進行した。
 Skeff氏は,FDの定義についてSchwenk氏らの「activities designed to improve an individual's knowledge and skills in areas considered essential to the performance of a faculty member」を引用した上で,FDにおけるカスタマーはまずは学生,ついで患者を含めた社会であり,ニーズにおいてもまずは学生のニーズ,ついでファカルティのニーズを検討すること,何よりも医学生への尊敬や愛情が大切であることが強調された。なおFDについては,前日のInvited Topicsでも取り上げられ,アルゼンチンのAustral大学のCenteno氏は「FormalなFDがさほど実効を上げなかったため,InformalなFDに重点を移した」やり方を紹介した。その方法とは,教育に関心を持つすべての人から質問や相談をどんどんと受けつけ,そこで論文によるエビデンスを含めて納得のいく説明をするところから始める。するとさらに関心を持つ教育者が現れるため,さらに論文を渡したり,論文を読みたい人を集めて「医学教育論文抄読会」を開いたり,医学教育研究を勧めたりという形で,「教育に対して関心の高いヒトの内的動機づけを高める」とでも言う方法である。医学教育組織には,それぞれの文化や風土があるために,それを変化させるためには,仲間を増やしたり,より一般化可能な情報を利用する地道な努力が必要なことが示された。

4.米国を外部評価者とする中国の医学教育改革,医師養成試験問題のプール化に国際共同作業がスタート

 3日目のInvited Topics(パート5)では,米国のチャイナメディカルボードを母体とするニューヨーク国際医学教育研究所のWojtczak氏により,同研究所のプロジェクトが紹介された。まずは医学教育におけるエッセンシャルと評価の方法を確立し,これを実践する中国におけるカリキュラム改革が紹介された。数年間の準備段階を経て,いよいよ本年より中国の代表的なトップクラスの8大学医学部よりスタートしたという。日本のモデルコアカリキュラムの改革は,日本だけで進行中であるが,米国という強力な外部評価者をおいた中国の今後の取り組みに注目したい。なおWojtczak氏によれば,新しい医学教育改革では西安や上海のほうが,ずっと熱心で,必ずしも首都の医学部が前向きというわけではないとも言われた。
 ついで世界医学教育連合(WFME)のKarle氏が,「International Standard Setting in Basic Medical Education」のタイトルで講演された(URL=www.wfme.org)。スタンダードであることの条件として,describable,meaningful,appropriate,relevant,measurable,achievable,accepted by usersであることが強調された。
 なお氏は,医学教育改革の目的として,(1)社会の期待やニーズにあう医師の養成,(2)医学知識の増大やテクノロジーの進歩に対応できる,(3)生涯学習が可能となるような徹底した医師の能力開発,(4)新しい情報テクノロジーを活用できる,(5)健康増進政策において時代の変化に対応できるなどをあげられた。
 さらに医学教育改革を阻む要因として,現場サイドの問題を指摘し,(1)政治,社会経済,文化的背景,(2)医学部自体の保守性,(3)教育スタッフの怠惰,(4)資金不足,(5)改革プログラムが十分に管理,監督されていないこと,(6)「研究」や「診療」とは異なり,「教育」は報われないこと,(7)医学部でのリーダーシップの欠如が指摘された。
 同じInvited Topics(パート5)では,香港中華大学のHazlett氏により,「Hong Kong International Consortium for Sharing Medical Student」と題して,試験問題を含む評価システムを国際的に共有するIVIMEDS(The International Virtual Medical School)の試みが紹介された。この組織に加盟(年間6000-8000ドル)すると多肢選択問題だけでなく,筆記試験,ワンベスト問題,OSCEなどほぼすべてをカバーする試験方法,さらにはカリキュラム,医学生の学習ガイド,評価方法などが利用できると言う(URL=www.ivimeds.org)。
 帰国後,この組織の推進者である英国ダンディー大学医学部のHarden教授から日本から1-2校でもよいので,ぜひ参加してほしいとの手紙を吉田宛にいただいた。

5.卒後研修プログラムの徹底した検証体制

 3日目のWS「卒後教育の標準化」では,Royal College of Physicians & Surgeons of Canada(民間団体)のMikhael氏が,カナダでの研修施設の認定,さらには研修プログラムが本当に実践されているかどうかの詳細なチェックリストを用いて,サーベイの実際をWSの参加者に体験,評価させる方式を行なった。この方式だと,チェックリストの内容はすべて研修プログラムに含まれていることになる。たまたま隣の席の参加者は,10数年前に日本の新設国立医大を視察したオクスフォード大学医学部の教授で,「日本の医学生の基本的臨床能力と社会性がきわめて低かった」と述べられた。
 研修プログラムは,研修医をモニターするものでなく,指導医をモニターするものであることが強調され,印象的であった。一方,わが国の研修プログラムが,名前だけに終わっていることと対照的であった。また研修医は,研修中その施設の批判がしにくいので,その施設での研修終了後3-4か月を経てから,研修プログラムを評価させるなどの工夫がある。なおカナダでは,研修プログラム数が34と小さいのが問題であると言う。
 一般口演で,米国NBMEはまだ,OSCEを医師国家試験に導入しないままだが,非常に緻密な研究をしていることが明らかになった(なお2002年に導入予定のOSCEは,2004年に持ち越された。10-12ステーション,1ステーションは15分の予定)。すなわち1000人の学生,421人のSP(標準模擬患者),47の症例を用いて,一般化可能性理論を用いてテスト変動が学生の能力によるのか,SPの評価の揺れによるのか,症例の違いによるのかと言うことを調査していた。その結果,点数変動の65%は学生の能力,7%はSP,28%は症例による変動ということが示された。しかしイリノイ大学のBashook氏は,一般化可能性理論を使うと症例特異性が無視されてしまうため,高い内容妥当性を得るためには,30-50ぐらいの症例数が必要と述べた。
 イリノイ大学のDowning氏は,シカゴ地域の6つの医学校で作成した138項目からなる全身身体診察技法をSPが形成的に評価する場合,単に出来不出来で点数をつけるよりも,SPがヒントを与えた時に,学生ができたか,できなかったかと言う要因を含めて5段階評価したほうが,信頼性が高くなることを示した。
 イリノイ大学のBordage氏は,診断推論に必要な医学知識の長期記憶が,概念化,抽象化されたプロトタイプによると言うプロトタイプモデルを主張し,一方,マクマスター大学のEva氏やNorman氏は,長期記憶は積み重ねでしかないとの事例モデルを主張した。Norman氏は認知心理学を基盤とし,少数例による比較対照研究のエビデンスを重ねてきたが,その方法論が実際の場面にどのくらい応用可能かどうか,疑問視する者もいる。Norman氏の研究は,皮膚科,放射線科,病理学といったビジュアルな要因が診断に大きく寄与する内容を重点的に扱っているため,Bordage氏がリウマチ学などの領域を扱っているのと,臨床像が違うという面への注意が必要と考えられた。
 最終日4日目のWSも魅力的な7つのタイトルが同時進行で開催され,どれにでも出席したい気持ちでいっぱいであった。ノースダコタ大学のOlson氏とユニフォームサービス大学のPangaro氏らは,「卒前教育に関するSPIRAL方式とRIME方式」について解説した。SPIRAL方式は,(Sequenced Performance Inventory and Reflective Assessment of Learning)の略で,症例基盤型学習のさまざまな側面において,各学生がemerging,developing,advancedのいずれに当たるかを評価していくものである。RIME方式は,クリニカルクラークシップにおいて,各割り当て患者に対する学生の役割が,reporter,interpreter,manager or educatorのいずれに当たるかを評価していくものである。いずれも応用範囲が非常に広く,学生同士の力量を比較しやすいという点で注目に値すると感じた。なおSPIRALとは,Harden氏の提唱するtask-based learningにおいて,同じ内容をさまざまな学習速度で繰り返しながら,少しずつ進化させるというらせん型モデルをもじったもの,RIMEとは,AAMCの年次集会でのResearch in Medical Educationをもじったものである。
 口頭発表の部ではイリノイ大学のBashook氏は,専門医試験に対してStructured case-based oral examinationを開発したことを発表。それは,2時間の試験に24-36の症例問題を用い,信頼性係数が0.66-0.96と十分に利用可能なデータを示した。評価者は1例につき2名で十分で,症例数を増やさずに評価者を増やしても信頼性向上にはつながらなかった。MCQでは評価不可能な問題解決能力について,この口頭試問は実用可能なものと結論づけた。
 同じく,イリノイ大学のGelula氏は,講義技法改善のためのWSについて報告した。3回連続で講義をビデオに録画し,自己評価をした上で,指導者とともに,そのビデオをチェックして改善に努めた。この講義には標準模擬学生が関与したり,マイクロティーチング技法が用いられたりした。講義は40項目の評定尺度で評価されたが,1回目よりも3回目のほうが,有意に改善が認められた。また同時に測定された自己効力感も上昇していた。講義技法の改善には,頑張ればよくなるという自己効力感が関与し,学生や第3者の評価によって反省的実践を行なうことが有用であることが示された。

6.目をみはる世界の医学教育教材のウェブサイト,期待される次回バルセロナ開催

 本学会の最後を飾るプレナリーセッションは,「われわれは何を学び,今からどこへ行くのか」と題し,米国NBMEのMelnick氏,トロント大学のReznick氏,英国ダンディー大学のHarden氏らの論客を交えて,フィナーレを迎えた。
 Harden氏は,本学会での収穫を鳥瞰され,日本が2004年から共用試験でOSCEを本格導入することを筆者らの発表で知り,紹介された。Harden氏は,2003年7月の佐賀での日本医学教育学会での特別講演演者に内定している。また10年後の医学教育では,シミュレータの全盛時代となることも強調された。
 会期中,展示されたウェブサイトによaモb秩・,事例を動画で見せた後,学生がどのようにインタビュー,身体診察,検査データなどを選んでいくかが,最後の評価段階で定量的にカラーで示される仕組みになっており,目を見はるものであった。日本ではこのように優れたものは,当分は作れないというのがわれわれの実感であった(URL=www.dxrgroup.com)。
 オタワ会議は2年後の2004年にはスペインのバルセロナで,2006年はニューヨーク,10年後にはアジアでの初めての開催が決定している。しかし,日本ではなく東南アジアだと聞いた時には,日本の医学教育が国際的に認知されていないことを,強く感じた。
 会場で親しくなった次期会長のMartinez-Carretero氏から,バルセロナには日本から大挙して参加してほしいとのメッセージを受けた(URL=www.bcmedic.com/ottawa,E-mail:Ottawa@bcmedic.com)。医学教育の国際学会に出席すると,昔,富士の医学教育WSで感激し,医学教育へ踏み込んだ頃を思い出す。日本から1人でも多くの方が,このオタワ会議に出席していただきたいと願うものである。


学会最終日のプレナリーセッション「われわれは何を学び,今からどこへ行くのか」のスナップ(左端はHarden教授,右端はHart会長。両氏がオタワ会議の創始者)