医学界新聞

連載

2011.08.22

今日から使える
医療統計学講座

Lesson4
多重検定

新谷歩(米国ヴァンダービルト大学准教授・医療統計学)


2937号よりつづく

 臨床研究を行う際,あるいは論文等を読む際,統計学の知識を持つことは必須です。
 本連載では,統計学が敬遠される一因となっている数式をなるべく使わない形で,論文などに多用される統計,医学研究者が陥りがちなポイントとそれに対する考え方について紹介し,臨床研究分野のリテラシーの向上をめざします。


 この夏,日本の各地で医療統計について話す機会を持ちました。その中で,多くの方からリクエストをいただいたのが多重検定による問題です。

見過ぎによる出過ぎ?

 研究論文を国際誌に投稿する際,統計手法の問題点を指摘された経験を持つ方は多いでしょう。中でも論文のレビュアーのチェックリストに載っているのではないかと思うほど頻繁に指摘されるのが,多重検定による問題です。「比較群の数が多いので,5%で有意差はつけられない」「ボンフェローニの補正を行うように」などと言われたことはないでしょうか? イエスと答えた方,まさにこの点が指摘されたのです。

 以前にもP値については何度も述べましたが,現在一般的に使われているP値に基づく統計手法では,新薬にまったく効果のないときに無作為に集められたデータで誤って(まったくの偶然で)差の出る確率(P値)を計算し,その誤る確率が5%以下であれば観測されたデータは偶然の産物ではなく,実際に新薬には効果があったと論じます。このまったくの偶然で有意差が出てしまうことを1型エラーと呼びますが,何度も検定を繰り返すと,このエラーがどんどん高くなります。

 身近な例で説明すると,5%の確率で,実力ではなくまったくの偶然で160 cmを飛べる高跳びの選手がいるとします(スポーツでは偶然も実力のうちですが,サイエンスではそうはいきませんよね)。この選手が複数回のトライアルで最低1回跳べたらクリアできるとすると,160 cmをクリアできる確率は,3回のトライアルでは(100%から1回もクリアできない確率である95%の3乗を引いて計算すればよいわけですから)14%,20回のトライアルでは64%とトライアルの回数が増えれば増えるほど高くなります(もちろんこれは前のトライアルの失敗が次のトライアルに影響しない場合にのみ成り立ちます)。

 それでは,実力ではなくただの偶然で跳んでしまった選手を表彰台に送りたくなければ,どうすればよいのでしょうか? 偶然でも跳べてしまう確率が低くなるように,バーの高さを180 cmまで上げてみてはどうでしょうか?

 このように,研究を何度も繰り返す,または一つの研究でもP値による検定を何度も繰り返すことにより,差がないのに偶然有意差が出てしまう1型エラーの確率が大きくなることを「多重検定の問題」(私はこれを「見過ぎによる出過ぎ」と呼んでいます),そのエラーの増加を防ぐため,先ほどの例で高跳びのバーを高くしたように各検定の有意水準をより厳しく補正することを「多重検定の補正」と言います。この補正法には,データから得られるP値を変えずに検定の回数が増えれば増えるほど有意水準を小さくとるという有意水準の補正法と,データから得られたP値を大きくし,有意水準は変えずに5%で評価するというP値の補正法と二通りの方法があり,通常の統計ソフトによる補正には後者が用いられます。

多重検定をどう補正するか

 多重検定は,P値が2回以上計算されたかどうかでその有無を判断でき,臨床研究,基礎研究を問わずさまざまな状況下で発生します。(1)比較群が3つ以上存在する,(2)アウトカムが2つ以上存在する,(3)リスクファクターなど暴露因子が2つ以上存在する,(4)データが時間によって繰り返し計測され,それぞれの時間で比較が行われている,(5)中間解析など研究終了前にデータの比較が繰り返し行われている,などです。各状況下で補正の方法は少しずつ異なり,中間解析による多重検定の補正法などはそれ以外で起こる多重検定の補正法とは異なった方法を使います(これについては次回解説します)。

 3つ以上の比較群間を比べる際には,第1群対第2群,第1群対第3群,第2群対第3群と,3つの...

この記事はログインすると全文を読むことができます。
医学書院IDをお持ちでない方は医学書院IDを取得(無料)ください。

開く

医学書院IDの登録設定により、
更新通知をメールで受け取れます。

医学界新聞公式SNS

  • Facebook