医学界新聞

連載

2011.09.19

今日から使える
医療統計学講座

Lesson5
中間解析

新谷歩(米国ヴァンダービルト大学准教授・医療統計学)


2941号よりつづく

 臨床研究を行う際,あるいは論文等を読む際,統計学の知識を持つことは必須です。
 本連載では,統計学が敬遠される一因となっている数式をなるべく使わない形で,論文などに多用される統計,医学研究者が陥りがちなポイントとそれに対する考え方について紹介し,臨床研究分野のリテラシーの向上をめざします。


 今回は,長期のランダム化比較試験の中間解析で用いられる多重検定の補正法についてお話しします。

過剰な中間解析は誤った結果を導きかねない

 ランダム化比較試験では通常,研究計画時に予想され得る薬効に基づいて検出力が十分得られる範囲で必要最小限の症例数を計算した後,その症例数に達成するまで試験を継続し,研究終了時に初めて最終評価項目の解析を行います。しかし,長期に及ぶ研究では,その薬剤を待ちわびている市場のニーズに応えるためにも最終評価項目の解析を研究終了前に行い,予想以上の効果が観測された場合には研究を早期終了することがあります。

 しかし,研究をできるだけ早く終了するために中間解析を頻繁に行うと,実は中間解析においても,解析を行えば行うほど前回(第2941号)述べたような多重検定による1型エラー(効果のないものを誤って効果があると判断してしまう)が大きくなってしまいます。

 脂質異常症用薬であるクロフィブラートのランダム化比較試験では,5年後の生存率においてクロフィブラート群はプラセボ群と比較しほとんど差がなかったのですが(P値=0.55),8年半に及ぶ研究期間で2か月おきに行われた中間解析では,なんとP値が通常の0.05を計4回下回り,有意差が確認されたのです1)

 早期終了の判断は,通常中間解析の結果に基づき独立データ安全委員会などの推奨によって行われます。本試験では,独立データ安全委員会がこの"見過ぎによる出過ぎ"の問題を熟知していたため,早期終了されなかったようです。

 それに対し,昨年Lancetで見かけた,アルツハイマー型認知症治療薬であるリバスチグミンを用いて,ICUに入院中の患者のせん妄発症率および死亡率が軽減できるかどうかを既存薬であるハロペリドールと比較したランダム化比較試験の論文です2)。当初440人のサンプル数で計画された研究が研究開始から3か月ごとに行われた4度目(サンプル数104人の時点)の中間解析で,リバスチグミン群の死亡率(死亡者数12人,22%)がプラセボ群のハロペリドール群(死亡者数4人,8%)を上回ったとして,逆効果のため早期終了となりました。この時点でのP値は0.07でした。この早期終了には疑問が残りますね。研究が続行されていた場合,クロフィブラート試験の結果を踏まえると,リバスチグミン群とプラセボ群の死亡率はそれほど差異が出ていたのでしょうか。

"見過ぎによる出過ぎ"をいかに補正するか

 中間解析を繰り返し行うことにより生じる"見過ぎによる出過ぎ"には,それぞれの中間解析において有意水準をより厳しく,差が出にくくなるように設定します。基本的な考え方は前回紹介した多重検定補正法と同じですが,中間解析における有意水準の補正は前回ご紹介したボンフェローニ法などとは異なる方法が用いられます。

 中間解析で用いられる有意水準の補正方法で歴史上最初に登場したのがHaybittle-Peto法(Peto法)です。Peto法は,中間解析の有意水準を0.001と厳しく設定することで,"見過ぎによる出過ぎ"を防ぎます(3)。例えば,中間解析のP値が0.005であっても,「差がある」と判定するためにはエビデンスとして十分でないため,研究は続行されます。中間解析を厳しく設定する一方,最終解析の有意水準は通常の0.05で設定します。

 ランダム化比較試験における中間解析の有意水準(文献3より改変)
 *研究全体の有意水準を0.05とした場合。

 Peto法では,中間解析の回数にかかわらず,有意水準を毎回0.001と設定しますが,「中間解析の回数の比較的少ない研究と多い研究で有意水準を同じにするPeto法はおかしいのではないか」ということで開発されたのが,次に説明するPocock法です。

 Pocock法では,解析の総数が2回の場合は,それぞれの解析で有意水準は0.029,解析の総数が3回であれば0.022というように,最終解析を含めた解析の総数が増えれば増えるほど,各解析での有意水準を厳しく設定しています(表)。また,Pocock法ではPeto法と異なり,最終解析の有意水準も中間解析と同様に厳しく設定されます。そのため,最終解析のP値が通常の有意水準である0.05よりかなり小さい場合も,中間解析を多く行ったせいで有意差が出ないなど,ジレンマに陥る場合もあるのです。

 このようなPocock法の弱点を補うために次に開発されたのが,現在最もよく使われているO' Brien-Fleming法です。O' Brien-Fleming法の有意水準はPocock法と同様,解析の総数が増えれば増えるほど厳しく設定されます(表)。それに加え,研究開始から間もない時点での中間解析はサンプル数が少なくデータが安定せず,1型エラーも大きくなるという理由から,有意水準をいちばん厳しく(小さく)設定します。その後は有意水準は時間の経過とともに徐々に大きく,最終解析では通常の0.05に近くなります(表)。

 O' Brien-Fleming法における最終解析の有意水準は,Pocock法ほど解析総数に依存せず,比較的0.05に近く設定されるので,有意差が出やすいという利点がある一方,研究開始間もない時点の中間解析の有意水準が厳しく設定されることから,早期終了を期待した研究には不向きと言えます。

中間解析について研究計画書に詳細な記載を

 今回ご紹介した3つの方法は,1回目の解析でサンプル数が100であれば,2回目は200,3回目は300というように各解析間のサンプル数(インターバル)が同じであることを前提としています。最近ではインターバルが一定でなくても用いることができる方法なども数多く紹介されていますが,その場合はソフトウェアや数式を用いて有意水準を計算します。

 なお,今回お話しした有意水準による研究の早期中断の決定法は"グループ逐次デザイン"と呼ばれ,比較薬剤の効果に差があるといった有効性,または逆効果による早期終了の判断の際に用いられますが,比較薬剤間にまったく差がない非有効性(または無益性)による早期終了の判断には使えません。非有効性の場合には,中間解析の時点で観測されたデータを基に,研究終了時に臨床的に意味のある差が出る確率を計算する「確率打ち切り法」と呼ばれる方法などが用いられます。

 また,逆効果を示すP値では,安全性を重視する観点から通常の0.05が早期終了の判断基準に用いられることもあります。先ほどご紹介した例では,リバスチグミン群の死亡率がプラセボ群を上回ったため,逆効果だとして早期中断の決定には多重検定による補正は行わず,P値は通常の優位水準の0.05に近いかどうかで判断されたようです。

 Peto法,Pocock法,O' Brien-Fleming法,確率打ち切り法など,どの方法を用いるかはそれぞれの研究の特性を考慮し,独立データ安全委員会が決定します。中間解析でどのように研究の早期中断の判断をするのか,有効性,非有効性(無益性),逆効果(安全性)などそれぞれに応じて考慮し,中間解析の回数や,時期を含めて研究計画書に詳細に記載する必要があります。

Review

 ランダム化比較試験の中間解析においても,"見過ぎによる出過ぎ"といった多重検定の問題が起こるため,有意水準を厳しく取ります。有効性,非有効性(無益性),逆効果(安全性)など,それぞれに対してどの手法で,何回,どの時期に中間解析を行うかを研究計画書に記載する必要があります。

つづく

参考文献
1)Practical aspects of decision making in clinical trials: the coronary drug project as a case study. The Coronary Drug Project Research Group. Control Clin Trials. 1981 ; 1(4): 363-76.
2)van Eijk MM, et al. Effect of rivastigmine as an adjunct to usual care with haloperidol on duration of delirium and mortality in critically ill patients: a multicentre, double-blind, placebo-controlled randomised trial. Lancet. 2010 ; 376(9755) : 1829-37.
3)Schulz KF, et al. Multiplicity in randomised trials II : subgroup and interim analyses. Lancet. 2005 ; 365(9471) : 1657-61.

開く

医学書院IDの登録設定により、
更新通知をメールで受け取れます。

医学界新聞公式SNS

  • Facebook