医学書院

検索
HOME週刊医学界新聞 > 第2912号 2011年01月17日

第2912号 2011年1月17日


寄稿

医療統計学の基礎
EBMの実現のために知っておきたいこと

新谷 歩(米国ヴァンダービルト大学准教授・医療統計学)


 私は現在,米国テネシー州のヴァンダービルト大学で,医療統計専門家として多くの医学研究のデータ解析に携わっています。私の所属する統計学部には32人の博士,30人の修士の計62名の統計専門家が在籍しており,大学内で行われる臨床,基礎研究をサポートしています。大学付属病院であるヴァンダービルトメディカルセンターでは,米国立衛生研究所(NIH)から年間約3億ドル余りのグラントを獲得しています。これはNIHから全米の大学に支給される年間支援金総額で,国内トップ10に入る規模です。

 NIHのほとんどすべてのグラントにおいて,博士号を持つ統計専門家の参加が義務付けられており,特に最近では主要な国際学術誌が統計専門家によるデータ解析を奨励していることもあって,私たち統計専門家の需要はますます増加しています。さらに,医療統計学の基礎知識が臨床研究を志す多くの医師の間で重要視されるようになり,本学では2000年に医師向けの臨床研究修士号コース(MSCI)を立ち上げました。このMSCIと公衆衛生修士号コース(MPH)の2つを合わせ,年間約30人の医師が臨床研究のエキスパートとして研究最前線へと送り出されています。

 通常,米国の大学付属病院では医師免許取得後,レジデントとフェローシップをそれぞれ2-3年経験すると,ファカルティ (大学教員)として迎えられる可能性が広がります。ここ数年,基礎と臨床をつなぐトランスレーショナルリサーチが盛んに唱えられていることもあり,臨床研究を志す医師(フィジシャンサイエンティスト)は急増しています。NIHグラントの取得は研究者として認められるための必須条件で,彼らはフェローシップの間に勤務時間の8割を研究活動に費やし,NIHグラントの取得をめざします。

 具体的には,若手臨床研究者のキャリア開発を目的としたグラントであるK23(Mentored Patient-Oriented Research Career Development Awards)を獲得することが最初のファカルティポストである助教授への登竜門となっています。また,さらに支給額が多いグラントであるRO1(毎年数千万円を計5年間)をその後獲得できるかどうかが,テニュア(終身雇用権)付きのポストへの昇進を大きく左右します。私が医療統計論を講義しているMSCIでは,必須科目として,基礎および臨床疫学,臨床試験方法論,基礎および応用統計学,グラントライティング(効果的な申請書の作成法)など,グラント取得に必要な知識全般を幅広く教えています。このように,現在の米国医学研究では医療統計の基礎知識を持ったトランスレーショナルリサーチの専門家の育成が必要不可欠であると認識されています。

 ところが実際には,多くの方々から統計学は難しい,今まで何冊も本を読んだけれど数式ばかりで少しも使い方がわからないなどのご意見を伺います。そこで本稿では,統計の基本知識の中からよく使われる概念をいくつか抜粋して解説したいと思います。

SD とSE,どちらを使うか?

 論文を執筆する際,「標準偏差(SD)と標準誤差(SE)のどちらを使うべきか」という質問をよく耳にします。SDとは集めたサンプル(標本)のばらつきを示します。データに示されているそれぞれの数値から平均値までの平均的な距離と考えてください。「平均±1×SDの区間に67%,2×SDの区間に95%のデータの数値が入る」というような使い方ができます。例えば,100人の被験者の平均年齢が50歳でSDが10歳の場合,「被験者の約67%が40-60歳,約95%が30-70歳である」ということが予想できます。

 一方,SEは推定(真の関係を表す値,母数に関する結論)の精度を示します。この精度とは,実際にデータとしては存在しない理論上の分布のばらつきなので,論文でよくTable 1に記載されているサンプルの描写説明には適していません。このような理由で,『Annals of Internal Medicine』などの学術誌では「平均±1×SE」というような表し方はしないようにとアドバイスされています1)

 論文において,SEに代わって登場するのが信頼区間(CI)です。信頼区間とは,上記に示した「平均±2×SE」で計算されますが,データの描写説明でなく推定結果としてこれを使った場合,「新薬投与群の真のコレステロールの値は95%の確率で160-180mg/dLの区間に入るような精度で予測でき,コントロール群では同様の信頼区間が190-210mg/dLだから,(2つの信頼区間が重ならないので)新薬は統計的に効果がある」と判断できます。

P値と信頼区間はどう違う?

 P値とは,例えば現実には試験薬に全く効果がないにもかかわらず,あたかも効果があるような結果になってしまう確率のことです。この場合,試験薬投与群と非投与群の真の結果の差はゼロになるはずですが,サンプルは無作為に集めてくることが前提なので,たまたま大きな差が確認され得ることがあるのです。

 このP値は,実は私たちが日常的に使っている概念です。例えば,私の娘たちは毎朝学校に行くのが遅刻寸前になるのですが,今朝は長女がいつもより30分も前に起きて支度を整えました。「何もないのにうちの子がこんなことをするなんてミラクルだ(=確率は皆無に近い,P<0.0001)。だから,何かあるに違いない」というのが主人の仮説でした。案の定,今日はクラスみんなで朝8時からお菓子を作ることになっていたようです。「何もないのに」という帰無仮説は棄却され,「何かあるに違いない」と言った主人の対立仮説が当たっていたようです。

 同様に考えると,「この薬が効かないのにこんな差が出るなんてミラクルだ,つまりこの薬は効くに違いない(有意差がある)」といった具合になります。このミラクルが起こる確率が5%を下回ると違いがある科学的な証拠(エビデンス)として認めてもよい,という慣習に従い,多くの研究では「P<0.05」で有意差を判定しています。 

 しかし実は,P値にはサンプル数次第でどうとでもなるという落とし穴があります。つまりサンプル数が多ければ臨床的に無意味な差でも有意となり,少なければ臨床的に意味のある差でも有意差が出ないというケースが有り得るのです。このP値の弱点を補うためにP値と並んで用いられるのが先ほどの「95%信頼区間(CI)」です。先のコレステロールの例では,2群間のコレステロールの平均の差とその95%信頼区間が30 (3, 57)だとすると,「真のコレステロールの2群間の差が95%の確率で3から57の範囲に入る,つまり信頼区間に差がないという値(0)を含まないので有意差あり,含めば有意差なし」と判断できます。

 数年前までいくつかの学術誌では,P値を排除し95%信頼区間のみを使うよう指示していたこともありましたが,現在では併記するのが一般的です。例外として,同等性を検討する研究の場合は信頼区間のみを使うことが義務付けられています。これは,同等性の検証で大きなP値が観測された場合(通常はP>0.05),これが本当に差がないことを示しているのか,サンプル数が少ないだけなのか,判断がつけられないためです。差がなければ信頼区間は狭くなり[例:差の信頼区間=(-1,1)],サンプル数が少ないことが理由であれば信頼区間が広がります[例:差の信頼区間=(-10, 10)]。どちらも0を含んでいるのでP値は5%より大きくなりますが,信頼区間が狭い場合には正確に差がないという科学的な証拠となります。

サンプルサイズ計算とパワー?

 パワー(検出力)とは,実際に新薬と既存薬との間に差がある場合,その差が有意であると判定できる能力の高さのことを言います。一般に,サンプル数を増やすと統計検定の能力が高まりパワーが増します。パワーが増すとP値は下がり,有意差が出やすくなります。臨床試験および基礎実験をする際には,研究計画の段階で解析パワーが十分保てる範囲(便宜的には80-90%)で必要最低限のサンプル数を,過去の研究データなどを基に割り出します。このようなサンプル数の計算は,安全性が必ずしも確認されていないような試験薬を用いる研究などにおいて,被験者数を最小限に抑えるため,また研究にかかるコストを削減するためにも重要とされています。

 サンプル数の計算は,先に述べたNIHのグラント申請時にはもちろん,論文上にも記載するように多くの学術誌で奨励されています。ランダム化臨床研究の結果報告手法を記載したコンソートの一覧では,サンプル数の計算を義務付けています2)

 臨床研究論文を国際学術誌に投稿した経験をお持ちの方は,医療統計学の知識の必要性を痛切に感じておられると思います。苦労して集めてきたデータをいざ世に出す時点で解析を間違ってしまっては元も子もありません。正しい解析手法を用いることは解析パワーを高めます。1人では手に負えない場合は,ぜひ専門家にご相談ください。

参考URL
1) http://www.annals.org/site/misc/author_info_stats.xhtml
2) http://www.consort-statement.org/consort-statement/overview0/


新谷歩氏
1991年奈良女子大数学科卒。96年米国イェール大公衆衛生学部医療統計学修士号,2000年同博士号取得。同年米国退役軍人病院臨床研究総合センターなどを経て,01年米国ヴァンダービルト大助教授,07年同大准教授。03-09年東海大客員准教授を務める。主な専門はICUにおけるせん妄,糖尿病,リウマチ,癌,感染症,腎臓病など多分野にわたる臨床データの統計解析。NEJM,JAMA等に多数の論文を報告している。