医学書院

検索
HOME週刊医学界新聞 > 第2955号 2011年11月28日

第2955号 2011年11月28日


今日から使える
医療統計学講座

Lesson7
RCTにおけるデータ解析

新谷歩(米国ヴァンダービルト大学准教授・医療統計学)


2949号よりつづく

 臨床研究を行う際,あるいは論文等を読む際,統計学の知識を持つことは必須です。
 本連載では,統計学が敬遠される一因となっている数式をなるべく使わない形で,論文などに多用される統計,医学研究者が陥りがちなポイントとそれに対する考え方について紹介し,臨床研究分野のリテラシーの向上をめざします。


 ヴァンダービルト大学では,15施設が参加し,5年間に及ぶランダム化比較試験(RCT)を本年10月に開始すべく,ICUせん妄研究チームが一丸となって準備を進めてきました。この研究は,米国立衛生研究所(NIH)から1300万ドルの研究費を得て,ICUに入室中の患者1000人を抗精神病薬ハロペリドールとジプラシドン(本邦未発売),プラセボの3群に割り付け,ICU内でのせん妄の予防に効果があるかどうかを比較します。

 米国では,多くのRCTに対して研究前に研究プロトコルを開示することを義務付けており1),ここ数か月,研究チームおよびデータモニタリング安全委員会の間で,RCTの解析法を含めた研究手法に対する興味深い論議が行われました。今回はそれを踏まえ,RCTにおけるデータ解析の注意事項について紹介します。

ベースラインの特性比較表にP値は必要か?

 大多数のRCTでは,年齢,性別,喫煙の有無,研究開始時点の重篤度など,患者の特性を新薬群,プラセボ(または既存薬)群間で比較します。ランダム化を行う理由は,グループ間の特性をそろえることによって交絡を防ぐためであり(交絡については,第2933号を参照),グループ間がうまくそろったかどうかを,各変数について群間比較します。

 群間に差があるかどうかを判断するために多くの研究で使われるのは,スチューデントのt検定やカイ二乗検定などの統計テストです。しかし,RCTにおいてベースラインの特性の違いの判断にP値を用いることは統計的に正しい意味を持ちません2)。その理由を以下に挙げます。

1)サンプル数が大きければ大きいほどP値は小さくなるため,大規模研究ほど有意差が出やすくなります。例えば,サンプル数が各群10人の研究と各群1000人の研究では,平均年齢の群間差が両者ともに3歳であっても,小規模研究では有意差なし,大規模研究では有意差あり,という不公平な結果になってしまいます。ランダム化は大規模研究ほど効果的に群間の特性をそろえられるはずなので,何だかつじつまが合いませんね。

2)多重検定の回でも説明しましたが,P値を用いる解析はP値を多く計算すればするほど誤った有意差が出やすくなるので,ベースラインの特性比較表に加える項目が多ければ多いほど,少なくともどこか1つで有意差が出る確率が高くなります。特性を5つリストアップした場合と,20個リストアップした場合とでは,その確率は大きく異なります。項目をいくつ載せれば適切かについてのガイドラインは特に存在せず,研究者およびレビュアーの判断に任されているようです。

3)P値の統計的な意味は,"母集団で比較したい群間に差がないときに,ランダムに集めてきたデータで観測される差が偶然出る確率"という意味です。先ほどの例で,ランダムに割り付けした2群間の3歳という平均年齢の差について計算したP値が0.03だったとします。多くの読者は(もちろん研究者もですが),ここでこのP値が0.05より小さいという理由で,この3歳の群間差には統計的な違いがあるとみなすでしょう。実はここに大きな間違いが起こっていることに気付いた方はいるでしょうか?

 ここで有意差ありと判断することは,差がないという帰無仮説を棄却するということです。帰無仮説とは,「真の差がない」,言い換えると「サンプルをランダムに採ってきた母集団で比較したい群間に差がない」ということです。帰無仮説を棄却することは,ここで観測された3歳の群間差は偶然に観測されたものではなく,母集団でも群間に差があるということになります。母集団で差があるということは,同じ割り付け方法を用いると,他の研究者が行った研究でも年齢に違いが出ることになってしまいます。それではおかしいですよね。まったくランダムに割り付けられているのであれば,観測された3歳の差はたまたま"3%の確率で偶然"出てしまったことになり,帰無仮説を棄却するかどうかを検討するのはまったく論外というわけです。

 それでは,集めてきたサンプルで観測された3歳の差が意味のある差かどうかを決めるためにはどうすればよいのでしょうか? その場合,P値のような確率的なツールは必要なく,3歳という差が臨床的に意味のある差かどうか,臨床的な判断で決めればよいのです。このような理由で,RCTの特性比較にP値を使用しないよう記載している雑誌も少なくありません3)

アウトカムの解析は補正すべき?

 前回紹介したように,交絡はランダム化によって比較群の特性をそろえることで防げます。そのため,そのようなランダム化がなされない観察研究に比べると,RCTの解析では回帰分析による補正は重要でないと通常認識されていますが,いくつかのRCT研究では補正を行っています。RCTにおける回帰分析による補正は,いつどのように行われているのでしょうか?

 RCTにおいて回帰分析を用いるかどうかについての明確なガイドラインは存在せず,補正を行う場合でもその使い方や理由はさまざまです。補正を行わない場合も含め,以下に6つの例を挙げてみました。それぞれが正しいかどうか,考えてみてください。

(1)ランダム化によって観測された変数のみならず,観測されていない変数でも全体的なバランスはとれているはずなので(例えば,年齢は新薬群が3歳若いため,結果は新薬群に有利になる可能性が高いが,新薬群の喫煙率も10%高いため,新薬群には不利な結果となる可能性も高い。そのため,有利/不利は全体として半々となり相殺される),ベースラインで特定の変数に群間差が確認されても解析は"補正なし"の単変量解析を行う。
(2)ベースラインの群間比較で,P値が0.05より小さい変数のみを補正する。
(3)ベースラインの群間比較で,P値を使わずに臨床的な判断で差があるとみなされた変数のみを補正する。
(4)ベースラインの群間比較の結果は用いず,研究前に作られたプロトコルで表記された変数のみを補正する。これらの変数は,アウトカムに対して影響力を持つリスク因子(例:がんによる死亡がアウトカムの場合,腫瘍ステージなど)の中から選ばれる。
(5)アウトカムのベースラインの値(薬剤投与後の血圧をアウトカムとすると,投与前の血圧の値)を補正する。
(6)特性を確実にそろえるためにランダムな割り付けが層別に行われた場合(例:多施設RCTの場合の施設),層別に使われた変数を補正する。

 通常統計家の間で正しいと認識されているものは(1)(4)(5)(6)です。大きな違いは,補正するかしないか,あるいは補正する場合にどの変数を補正するかをデータを見ないで(プロトコルを立てるときに)決めているということでしょう。ベースラインの比較など,実際のデータを見てから差のある変数のみを補正するという方法は,結果にバイアスがかかるとして,最近ではなるべく用いないよう助言されています。

 (1)の「補正しない」という方法は,RCTの結果をまとめた多くの論文で目にします。(4)では補正は行いますが,どの変数を補正するかは研究開始前にアウトカムに対して影響を持つリスク因子の中から選んでおきます。RCTでは,ランダム化によって交絡の影響を防げるので,(1)のような補正を行わない解析でも薬効を表すアウトカムの群間差は正しく計算されますが,(4)のようにアウトカムに影響を持つ変数で補正すると検出力が上がる(P値が小さくなる)ことが知られています4)

 アウトカムのベースラインの値や層別割り付けに使われた変数などは,通常アウトカムに対して影響を持つと考えられているので,(5)(6)は(4)に含まれることになります。

 本学では,研究者が研究計画を立てる場合や論文を投稿する際に,大学側が統計家を含む学内の各分野のエキスパートを集めて内部コンサルテーションを行うStudioと呼ばれる制度があります。先日,私もここに統計エキスパートとして参加しました。

 審査された研究は,薬剤投与後の炎症マーカーの値を比較するRCTでしたが,「研究費が足りなかったので,試験開始前の炎症マーカーの値は計測しなかった」とのこと。「大変残念です」と言わざるを得ませんでした。この研究では,薬剤投与後の炎症マーカーの値に有意差は出なかったのですが,試験開始前の炎症マーカーの値を回帰分析で補正することによって,試験後のマーカーの違いに差が出たかもしれないのです。皆さんもこのような状態に陥らないためにも,研究開始前,プロトコルを検討する段階で専門家に相談するなど,解析プランをしっかり立てることを心がけてください。

Review

*ベースラインの特性比較にはP値は記載しません。
*アウトカムの解析は補正しない場合が多いですが,補正によりパワーが増すことがあります。
*補正を行う場合は,プロトコル作成時に補正する変数を決めておくことが重要です。
*アウトカムのベースライン値は通常補正するので,必ず測定します。

つづく

参考文献
1)http://clinicaltrials.gov/ct2/results?term=MIND-USA
2)Senn S. Testing for baseline balance in clinical trials. Stat Med. 1994; 13 (17) : 1715-26.
3)http://www.annals.org/site/misc/ifora.xhtml#statistical-presentation
4)Assmann SF, et al. Subgroup analysis and other (mis) uses of baseline data in clinical trials. Lancet. 2000; 355 (9209) : 1064-9.

連載一覧