医学書院

検索
HOME週刊医学界新聞 > 第2941号 2011年08月22日

第2941号 2011年8月22日


今日から使える
医療統計学講座

Lesson4
多重検定

新谷歩(米国ヴァンダービルト大学准教授・医療統計学)


2937号よりつづく

 臨床研究を行う際,あるいは論文等を読む際,統計学の知識を持つことは必須です。
 本連載では,統計学が敬遠される一因となっている数式をなるべく使わない形で,論文などに多用される統計,医学研究者が陥りがちなポイントとそれに対する考え方について紹介し,臨床研究分野のリテラシーの向上をめざします。


 この夏,日本の各地で医療統計について話す機会を持ちました。その中で,多くの方からリクエストをいただいたのが多重検定による問題です。

見過ぎによる出過ぎ?

 研究論文を国際誌に投稿する際,統計手法の問題点を指摘された経験を持つ方は多いでしょう。中でも論文のレビュアーのチェックリストに載っているのではないかと思うほど頻繁に指摘されるのが,多重検定による問題です。「比較群の数が多いので,5%で有意差はつけられない」「ボンフェローニの補正を行うように」などと言われたことはないでしょうか? イエスと答えた方,まさにこの点が指摘されたのです。

 以前にもP値については何度も述べましたが,現在一般的に使われているP値に基づく統計手法では,新薬にまったく効果のないときに無作為に集められたデータで誤って(まったくの偶然で)差の出る確率(P値)を計算し,その誤る確率が5%以下であれば観測されたデータは偶然の産物ではなく,実際に新薬には効果があったと論じます。このまったくの偶然で有意差が出てしまうことを1型エラーと呼びますが,何度も検定を繰り返すと,このエラーがどんどん高くなります。

 身近な例で説明すると,5%の確率で,実力ではなくまったくの偶然で160 cmを飛べる高跳びの選手がいるとします(スポーツでは偶然も実力のうちですが,サイエンスではそうはいきませんよね)。この選手が複数回のトライアルで最低1回跳べたらクリアできるとすると,160 cmをクリアできる確率は,3回のトライアルでは(100%から1回もクリアできない確率である95%の3乗を引いて計算すればよいわけですから)14%,20回のトライアルでは64%とトライアルの回数が増えれば増えるほど高くなります(もちろんこれは前のトライアルの失敗が次のトライアルに影響しない場合にのみ成り立ちます)。

 それでは,実力ではなくただの偶然で跳んでしまった選手を表彰台に送りたくなければ,どうすればよいのでしょうか? 偶然でも跳べてしまう確率が低くなるように,バーの高さを180 cmまで上げてみてはどうでしょうか?

 このように,研究を何度も繰り返す,または一つの研究でもP値による検定を何度も繰り返すことにより,差がないのに偶然有意差が出てしまう1型エラーの確率が大きくなることを「多重検定の問題」(私はこれを「見過ぎによる出過ぎ」と呼んでいます),そのエラーの増加を防ぐため,先ほどの例で高跳びのバーを高くしたように各検定の有意水準をより厳しく補正することを「多重検定の補正」と言います。この補正法には,データから得られるP値を変えずに検定の回数が増えれば増えるほど有意水準を小さくとるという有意水準の補正法と,データから得られたP値を大きくし,有意水準は変えずに5%で評価するというP値の補正法と二通りの方法があり,通常の統計ソフトによる補正には後者が用いられます。

多重検定をどう補正するか

 多重検定は,P値が2回以上計算されたかどうかでその有無を判断でき,臨床研究,基礎研究を問わずさまざまな状況下で発生します。(1)比較群が3つ以上存在する,(2)アウトカムが2つ以上存在する,(3)リスクファクターなど暴露因子が2つ以上存在する,(4)データが時間によって繰り返し計測され,それぞれの時間で比較が行われている,(5)中間解析など研究終了前にデータの比較が繰り返し行われている,などです。各状況下で補正の方法は少しずつ異なり,中間解析による多重検定の補正法などはそれ以外で起こる多重検定の補正法とは異なった方法を使います(これについては次回解説します)。

 3つ以上の比較群間を比べる際には,第1群対第2群,第1群対第3群,第2群対第3群と,3つの対比較それぞれにP値が計算できますよね。有意水準の補正法として最もよく知られているボンフェローニ法は,起こり得るすべての対比較の総数で通常の有意水準(5%)を割って補正します。つまり3つの対比較では,P値が0.05÷3≒0.0167より小さければ有意差を論じるといった具合になります。例えば,P値が0.03の場合,補正後の有意水準の0.0167より大きいので,有意差が出なくなります。

 同様に,P値の補正はデータから得られるP値を対比較の総数で掛け算することで,実際よりP値を大きくして補正します。この場合,補正後のP値は0.03×3=0.09となり,補正なしの有意水準5%より大きくなるため,有意差は出ません。有意水準を補正してもP値を補正しても結果は同じですが,くれぐれも両方同時に補正しないようにしてください。

ボンフェローニ以外の補正法を見てみよう

 ボンフェローニに次いでよく用いられる補正法が,ダネット法です。ダネット法は薬の開発研究などで多く用いられています。ダネット法では考えられ得るすべての対比較ではなく,先に設定された参照群に対してのみ対比較を行うことで検定の数を減らし,有意水準をボンフェローニ法ほど厳しく採らなくて済むという利点があります。

 例えば先ほどの例で,第1群を既存薬を用いて治療が行われた群,第2群を新薬を低用量投薬した群,第3群を新薬を高用量投薬した群と仮定します。低用量または高用量の新薬群は既存薬群に対してのみ対比較し,低用量と高用量群間の比較はなしとすると対比較の総数は2となり,有意水準は5%を3でなく2で割って,0.025で設定します。群数が10であるような研究では,対比較の数を45個から9個まで減らすことができます。

 ダネット法のような決められた対照群のみとの比較だけでなく,すべての対比較を行いたいときに用いられるテューキー法では,各対比較を差の一番大きなものから行い,有意差が出なくなった時点で対比較を終了するというやり方で比較の数を減らします。

 連載第1回(第2927号)で紹介した統計テストの選択法のなかで,比較群が3群以上でアウトカムが連続変数の場合は分散分析を使うと述べました。分散分析は多重検定による1型エラーの増加を防ぐために行います。分散分析で有意差が出た場合は,どの群かはわからないけれど最低1つの群が他の1群と異なっていることを意味します。いくら群数が増えても検定は1回ですから,有意差が出たということは"見過ぎによる出過ぎ"ではないので,分散分析で有意差が出た場合のみ次のステップとして対比較に進んでよいというルールが設けられています。

厳しく補正することで新たなエラーが生じることも…

 ここに紹介した以外にもさまざまな多重検定の補正法が開発されていますが,多くの方法において,比較群が大変多い研究,例えば遺伝子型ごとに患者をグループに分類する研究,数ある生物マーカーの中からある疾患の診断マーカーを選択するような研究などでは,既存の補正法を用いることで,逆に本当は差があるのに誤って差がないと言ってしまう2型エラーの増加が問題となります。最近注目されるようになった,偽発見率(False Discovery Rate)に注目したFDR法による多重検定の補正法などは,群数がかなり多くても有意水準をそれほど厳しくしなくて済むといった利点があります。

 このように,多重検定の補正法は数多く存在しますが,どの場合にどの補正法を使うかというガイドラインはないのが現状です。多くの場合,計算が比較的簡単なボンフェローニの補正法を使うように論文のレビュアーなどから指示されることが多いのですが,ボンフェローニの補正法は数ある補正法のなかでも一番消極的で,2型エラーを逆に増加させることが知られています。

 特に,新薬と既存薬間で血圧とコレステロール値をそれぞれ比較するなど("血圧の高い人はコレステロール値も高い"というような)相関するアウトカムをそれぞれ比較する場合,生物マーカーや遺伝型など複数の相関するリスクファクター間で比較する場合,繰り返し計測されたデータをそれぞれの計測時点で複数回比較する場合などは,検定間に相関があるため,前述したような通常の補正法では相関が強ければ強いほど補正のし過ぎが問題となります。先ほどの高跳び選手の例では,前のトライアルで跳べなければ次に跳べないという確率がさらに高くなると,160 cmクリアできる確率は,トライアルの回数が増えてもさほど変わらないので,偶然飛べてしまう1型エラーはあまり増加しません。

 多重検定は論文のレビュアーなどからかなりうるさく指摘されますが,その内容をきちんと理解している人も少なく,かえって2型エラーの増加などの問題を引き起こします。これらを回避するため,最近ではベイズ法や尤度法などP値の概念のない検定法も開発されてきています。これらの手法では,データを基に直接新薬が既存薬より有効かどうかの確率を計算でき,P値を用いないので,多重検定の問題が生じず補正も行わなくてもよいという利点があります。

Review

 複数の検定(P値)を用いた研究では,"見過ぎ"によって,誤って差が出てしまう1型エラーの増加が起こります。この問題を防ぐため,有意水準やP値を補正し検定をより厳しく行うことが推奨されていますが,それぞれの補正法の基本的コンセプトを正しく理解することは,補正のし過ぎによって起こる2型エラーの増加を防ぐ上でも重要です。

つづく

連載一覧