医学書院

検索
HOME週刊医学界新聞 > 第2898号 2010年10月04日

第2898号 2010年10月4日


論文解釈のピットフォール

第19回
中間解析と早期終了の問題点 その3

植田真一郎(琉球大学大学院教授・臨床薬理学)


前回からつづく

ランダム化臨床試験は,本来内的妥当性の高い結果を提供できるはずですが,実に多くのバイアスや交絡因子が適切に処理されていない,あるいは確信犯的に除 去されないままです。したがって解釈に際しては,“ 騙されないように” 読む必要があります。本連載では,治療介入に関する臨床研究の論文を「読み解き,使う」上での重要なポイントを解説します。


 前回は,CHARM試験の中間解析の結果と,独立データモニタリング委員会の対応についてお話ししました。臨床試験の結果が診療に与える影響を考慮すると,早期終了に関しては,より慎重な対応が求められることを理解していただけると思いますし,委員会の見識も問われることになるのです。

 今回は,いよいよJUPITER(Justification for the Use of Statins in Primary Prevention: an Intervention Trial Evaluating Rosuvastatin)試験1)の早期終了の妥当性について議論してみましょう。

早期終了試験の結果は過大評価されていないか?

 JUPITER試験は,「LDLコレステロール130 mg/dL未満であるが,高感度CRP 2.0 mg/L以上」の健常者を対象として,ロスバスタチン(20 mg/日)とプラセボを比較したものです。一次エンドポイントは心血管死亡,心筋梗塞,脳卒中,血行再建(冠動脈バイパス,経皮的冠動脈インターベンション),不安定狭心症での入院の複合エンドポイントです。スタチン系薬剤のこれまでの臨床試験では,ほぼ心筋梗塞(冠動脈疾患死,非致死性心筋梗塞)が単独のエンドポイントとして評価されていましたが,この試験ではその点が異なります。結果は,図1に示したように一次エンドポイントに関して44%リスクが低下しました。

図1 JUPITER試験における一次エンドポイントの発生と治療群間の差(文献1より改変)

 JUPITER試験では,あらかじめ中間解析と早期終了に関する取り決めがなされています。2回の有効性に関する中間解析を実施し,O’Brien-Flemingの検定を採用しています。これは連載第17回(本紙2890号)で表にまとめましたが,早期終了を検討できるp値は1回目の中間解析では0.0005,2回目は0.014で,前回紹介したCHARM試験での規約とは異なります。

 JUPITER試験では,1回目(6か月)の中間解析でp<0.00001の有意差が生じ,4年間観察する予定を試験開始後1.9年(中間値)で早期終了としました。問題は,これが前回お話ししたRandom highの可能性がないかどうかということです。実際のところ,JUPITER試験の結果がRandom highである,という証拠はなかなか得られないのです。

 ここに参考になる報告があります。Montoriらは,試験薬が中間解析で有益であることが判明したとして早期終了になった143のランダム化比較試験についてのシステミックレビューを行いました2)。さまざまな興味深い結果が得られていますが,まず驚くのは,これら早期終了した試験のリスク減少の中央値が47%と非常に高いことです。取り上げた試験は循環器(25%),がん(21%)などが約半数を占めますが,この数値には違和感を持ってしまいますね。なぜなら,どのような治療であれ,単独の治療でエンドポイント発生リスクが半減することは,これまでの試験の結果を見ても考えにくいからです。

 循環器領域でガイドラインを変えたような薬剤,例えばアスピリン(心筋梗塞二次予防),ACE阻害薬(心不全や冠動脈疾患ハイリスク患者),β遮断薬(心不全,心筋梗塞二次)にしても,このような劇的な結果は得られていません。それを考えると,早期終了のリスク比の減少は過大評価されている,すなわちRandom highである可能性を否定できません。

 このJUPITER試験もリスク低下44%という,いかにも早期終了らしい劇的な結果です(ほかに,心血管系薬,製薬会社からの研究資金,NEJMなど,早期終了試験の特徴を兼ね備えています)。これまでのスタチン系薬剤の試験では,確かに一貫して心筋梗塞リスクを減少させるという結果が報告されてきましたが,リスク低下はだいたい30%程度です。したがって,JUPITER研究の結果はこれまでの試験結果からすると,「過大評価」の可能性があります。

Random highはイベント数が200以下の試験で起きやすい

 早期終了した試験でのイベント(エンドポイント)発生は,結局研究計画作成時に予想したものより少なくなります。Montoriらの研究では,早期終了した試験のイベント数中央値はなんと66しかありません。もし,全体で66しかイベントが発生しておらず,試験薬群と対照群との間でp<0.001で有意差が生じていたとすると,ざっと計算してリスク減少は50%以上になります。やはり,イベント数が少ないうちはRandom highとしての劇的な差が生じやすいのでしょう。

 興味深いことに,早期終了試験では,報告されたイベント数が少なければ少ないほどリスク減少は大きく,この関連は総イベント数200以下で強いことが報告されています(図23)。つまり,イベント数が200以下の試験では,Random highが起こりやすいのですね。もちろん逆の解釈(差が大きいから途中で止めるので,イベント数が少ない)も否定はできませんが,前回のCHARM試験の結果やこれまでの臨床試験の結果からは,これは考えにくいと思います。

図2 相対リスクの比とイベント総数のメタ回帰分析(文献3より改変)
色の濃淡で,過大評価に関して3つの領域に分類している。最も淡い1の領域は最も過大評価の可能性が高い試験であり,総イベント数は200以下で,リスク比はイベント数と相関する。色が濃くなるにしたがって,過大評価の可能性は低くなる。

 では,JUPITER試験のイベント数を見てみましょう()。一次エンドポイントがロスバスタチン群で142,プラセボ群で251発生しており,前述した200は超えています。それでは,Random highの可能性は否定できるのでしょうか? 注意しなければならないのは,これまでのスタチンの試験と異なり,これは複合エンドポイントの結果だということです。

 JUPITER試験における一次複合エンドポイントと,構成する各エンドポイントの発生数とリスク減少(文献1より改変)
複合一次エンドポイントは全体で393発生しているが,個々のエンドポイントの発症は血行再建を除けば100程度である。リスク減少も,過去のスタチンの試験結果と比較すると大きい。

 心筋梗塞の結果を見ると,全体で99のイベントしか発生しておらず,内訳はロスバスタチン群31,プラセボ群68です。54%のリスク減少ですが,これまでのスタチンの試験結果からは,これはRandom highによる過大評価と解釈すべきでしょう。他のエンドポイント発生(脳卒中,不安定狭心症)も単独では100程度で,リスク減少は50%前後ですから,やはり過去の試験結果との一貫性のなさからRandom highによる過大評価だと解釈できます。

つづく

参考文献
1)Ridker PM, et al; JUPITER study group. Rosuvastatin to prevent vascular events in men and women with elevated C-reactive protein. N Engl J Med. 2008; 359 (21): 2195-207.
2)Montori VM, et al. Randomized trials stopped early for benefit: a systematic review. JAMA. 2005; 294 (17): 2203-9.
3)Bassler D, et al ; STOPIT-2 Study Group. Stopping randomized trials early for benefit and estimation of treatment effects: systematic review and meta-regression analysis. JAMA. 2010; 303 (12): 1180-7.

連載一覧