医学界新聞

連載

2010.09.06

論文解釈のピットフォール

第18回
中間解析と早期終了の問題点 その2

植田真一郎(琉球大学大学院教授・臨床薬理学)


前回からつづく

ランダム化臨床試験は,本来内的妥当性の高い結果を提供できるはずですが,実に多くのバイアスや交絡因子が適切に処理されていない,あるいは確信犯的に除 去されないままです。したがって解釈に際しては,“ 騙されないように” 読む必要があります。本連載では,治療介入に関する臨床研究の論文を「読み解き,使う」上での重要なポイントを解説します。


Rimonabant臨床試験の早期終了

 8月14日号のLancet誌に,抗肥満薬Rimonabantの臨床試験の結果が掲載されていました1)。代謝に関しては理想的な薬効を有する薬剤で,心血管イベントをエンドポイントとした試験の実施も妥当だと思いますが,最近では珍しく,有害事象(自殺をはじめとする精神症状)による早期終了となってしまいました。しかも,スポンサーの意向や独立データモニタリング委員会の勧告ではなく,規制当局による中止です。

 この薬剤は,国によっては既に市販されており,これまでにも有害反応としてのうつ状態は報告されていました。ですから,およそ2万人を登録した後期の大規模な試験でこのような事態が発生したということは,これまでの臨床研究における安全性評価あるいは報告に問題があったのでしょう。

CHARM試験はなぜ早期終了に至らなかったか

 では,「明らかな効果が判明したこと」による早期終了に話を戻しましょう。前回,試験の早期終了はあくまでヘルシンキ宣言に基づき,試験治療が優れていることが判明した場合に被験者保護を目的に行われるべきであるけれども,実際は試験実施者の都合で行われている可能性があることをお話ししました。もちろん実際に効果が早期に判明し,その結果早期終了となった研究もありますが,それが過大評価になっていないかどうか,注意する必要があります。

 前回は,早期終了のためにはより小さなp値が必要とされることを説明しました(Peto検定の方法だとp<0.001)。つまり「その薬剤の結果が劇的であるから早期終了となった」という言い方もできるわけです。しかし早期終了は,あくまで「中間解析と同様の結果が,本来の試験期間で最後まで観察を継続したときにも得られる」という前提のもとに行われているはずです。もしそうでないなら,むしろ早期終了自体が非倫理的になりますね。このことを実際確かめることは困難なのですが,参考になる報告があります。

 CHARM(candesartan in heart failure assessment of reduction in mortality and morbidity program)試験は,心不全患者におけるカンデサルタンとプラセボの比較試験です。ACE阻害薬服用患者への追加投与(CHARM-Added),ACE阻害薬が使用できない患者への投与(CHARM-Alternative),心収縮機能が維持(駆出率40%以上)されている患者への投与(CHARM-Preserved)という独立した3つの試験から成ります。

 それぞれの試験の一次エンドポイントは心血管死亡と心不全による入院なのですが,CHARM全体(CHARM-Overall program)の一次エンドポイントは総死亡で,症例数も総死亡率の14%の低下を予想して設定されていますし,早期終了の基準も総死亡のプラセボ群とカンデサルタン群の差に基づいています2)。各試験における一次エンドポイントでの早期終了の基準は設けてありません。早期終了の基準としては,Petoの方法が用いられました。これは前回お話ししたように,中間解析を何回実施してもp<0.001であれば早期終了を検討する,最終解析ではp<0.05で有意とするというものです。ただしこの試験では,試験開始後18か月以内に限っては,より厳しい条件(p<0.0001)を満たせば,早期終了を検討することになっていました3)

 結局CHARM試験は早期終了に至りませんでしたが,実は中間解析では差が生じていたのです。に示したように,1年後および1年半後の中間解析時,p値はそれぞれ0.0007(37%リスク減少),0.0002(34%)でした。通常のPetoの方法では早期終了を検討すべき値なのですが,CHARM試験では事前の取り決めによってp<0.0001を境界(boundary)にしていたので,早期終了とはなりませんでした。

 CHARM-Overall program,中間解析における総死亡とp値の推移(文献3より改変)
CHARM-Overall programでは数回の中間解析を実施した。4回目の中間解析ではp値(0.0006)は早期終了の基準(p<0.001)を満たしたが,データ安全性モニタリング委員会は試験続行を勧告。その後p値は徐々に大きくなり最終解析ではp=0.055となった。

 しかし,開始からほぼ2年が経過した時点の中間解析においてはp=0.0006(24%)で有意差が得られたわけですから,これは明らかに早期終了の基準を満たします。ところが,データ安全性モニタリング委員会では早期終了とはせず,半年間試験の継続を勧告しました。確かに,半年後の中間解析ではp=0.00103(20%),その後はp=0.009,p=0.015で試験はさらに継続され,最終解析ではリスク減少はさらに小さくなり,p=0.055(9%)となったわけですから,その判断は正しかったと言えます。なぜ委員会はp=0.0006が得られた時点で終了の勧告をしなかったのでしょうか? 「劇的な」結果であるのに。

Proof beyond a reasonable doubt

 この理由は論文中に記載されています3)。まず,このような有意差が試験中に偶然生じることを知らなければなりません。臨床試験においては,介入によるリスク減少は試験期間を通して一定であればよいのですが,実際は図1に示すように変動し,Random highであるときに解析を行うと,実際よりも大きな治療効果を示してしまうことがあります4)。CHARMの総死亡に関する全体解析も図2に示すように当初Random highでしたが,“Regression to the truth”(真実への回帰。当初Random highを示していても繰り返し測定により真の値に近づく)により,今後カンデサルタンによる死亡リスク減少は小さくなると予想されたことが試験続行の大きな理由です。

図1 Random highによるp値(文献4より改変)
ある研究において,6か月ごとの中間解析で得られた,治療群と対照群の比較によるp値。変動が大きく,通常中間解析の基準では早期終了とはならないが,途中でp=0.05が得られている。その後p値は大きくなり,最終的には有意差は得られていない。中間解析で途中偶然「有意差」が得られることがあるが,変動によるRandom highである場合を考慮して,早期終了は慎重にすべきである。

図2 CHARM-Overall programでの中間解析における死亡リスク減少の変動(文献3より改変)
当初40%近いリスク減少が得られたが,解析を繰り返すたびにリスク減少は小さくなり,最終解析は9%であった。当初のRandom highからRegression to the truthが起こったと考えられる。

 これまでのARBの試験のみならず,ACE阻害薬やβ遮断薬の臨床試験ですらこのような劇的な死亡リスク減少は認められなかったこと(結果の一貫性)からも,Random highの可能性を捨てきれなかったのだと思います。また,もともと2年以上の観察での効果を評価するための試験であったこと,したがってある程度の期間にわたる有効性・安全性の評価が必要であること(目的との整合性)なども,早期終了を回避した理由となったようです。

 結局,このような試験の結果は心不全治療に大きな影響を与えるため,誇張された可能性のある劇的な結果よりも十分信頼するに足る結果(Proof beyond a reasonable doubt of treatment efficacy)を報告しなければならない,という意識がデータ安全性モニタリング委員会にあったことが,より慎重な決定となったのでしょう。これはむしろ早期終了が非倫理的になる可能性もあることを示唆していますね。また,この研究では結果として十分な期間の観察をすることが可能となったため,3つのそれぞれの試験においても一次エンドポイント(心血管死亡と心不全悪化による入院)に関する十分な検出力を得ることができました。

 次回はいよいよJUPITER trialの早期終了の妥当性について考察してみましょう。

つづく

参考文献
1) Topol EJ, et al; The CRESCENDO Investigators. Rimonabant for prevention of cardiovascular events (CRESCENDO): a randomised, multicentre, placebo-controlled trial. Lancet. 2010; 376 (9740): 517-23.
2)Pfeffer MA, et al; CHARM Investigators and Committees. Effects of candesartan on mortality and morbidity in patients with chronic heart failure: the CHARM-Overall programme. Lancet. 2003; 362 (9386): 759-66.
3)Pocock S, et al. The data monitoring experience in the Candesartan in Heart Failure Assessment of Reduction in Mortality and morbidity (CHARM)program. Am Heart J. 2005; 149 (5): 939-43.
4)Schulz KF, Grimes DA. Multiplicity in randomised trials II: subgroup and interim analyses. Lancet 2005; 365 (9471): 1657-61.

開く

医学書院IDの登録設定により、
更新通知をメールで受け取れます。

医学界新聞公式SNS

  • Facebook