多変量解析―説明変数の選び方(新谷歩)
連載
2011.10.17
医療統計学講座
【Lesson6】
多変量解析――説明変数の選び方
新谷歩(米国ヴァンダービルト大学准教授・医療統計学)
(2945号よりつづく)
臨床研究を行う際,あるいは論文等を読む際,統計学の知識を持つことは必須です。
本連載では,統計学が敬遠される一因となっている数式をなるべく使わない形で,論文などに多用される統計,医学研究者が陥りがちなポイントとそれに対する考え方について紹介し,臨床研究分野のリテラシーの向上をめざします。
通常ランダム化の行われていない観察研究では,効果を明らかにしたいリスク因子と絡んでさまざまな因子がアウトカムに影響を及ぼすため,それらの因子(交絡因子)の影響を補正する手段として,多変量回帰分析が有効であることを第2回(第2933号)でお話ししました。回帰分析にこれらの交絡因子を説明変数として加えることで,数学的に交絡の影響を取り除きます。では,すべての交絡因子をモデルに加えることはできるのでしょうか? 今回は,その簡単なルールについて,例を示しながら解説します。
交絡因子をいかに取り除くか
「ICUにおけるせん妄の発症が人工呼吸管理患者の予後(ここではICU入室から6か月後の死亡率)にどうかかわるか」について調べた研究例に沿って,モデルの作り方を紹介します。この研究では,せん妄を発症するかどうかはランダム化による割り付けができないため,人工呼吸管理患者をICU入室中毎日観察し,せん妄発症の有無で2群に分けました1)。
「せん妄あり」群には高齢者や敗血症患者が多く,両群の死亡率を短絡的に比較することはできません。仮に「せん妄あり」群の死亡率が高くても,それがせん妄によるものなのか,年齢,敗血症によるものなのか区別できないからです。そのため多変量解析では,せん妄と共に年齢や敗血症という交絡因子を説明変数としてモデルに加えることで,せん妄,年齢,敗血症それぞれに依存する死亡率を計算します。せん妄に依存する死亡率は他の変数の影響を受けないため,せん妄のみによる死亡率への影響を解析できるのです。この影響をハザード比やオッズ比などを用いて表しますが,この例では「年齢,敗血症で補正されたせん妄の死亡率へのハザード比もしくはオッズ比」と呼んでいます。
では,せん妄と関連があり,アウトカムに影響を及ぼすような交絡因子は年齢と敗血症だけでしょうか? 因果関係を探究する研究では,交絡因子をいかにうまく取り除けるかが研究の質を左右するので,この場合起こり得る交絡因子がほかにないか,よく考えてください。重篤度,基礎疾患,投与された鎮静薬の種類,ベースラインの認知機能障害,併存疾患,入院時の生活運動能力,低酸素血症の有無,ショック状態の有無,臓器不全評価スコア,などいろいろありそうですね。
このように数多くある交絡因子をすべてモデルに加えることは可能なのでしょうか? 答えはNoです。説明変数をモデルに入れ過ぎてしまうとモデルの結果が不安定になるため,サンプル数の小さな研究ではモデルに加えられる変数の数は限られています。
第2回で紹介した簡単な方法を用いてサンプル数を基に大体の目安をつけていきますが,そのルールはモデルの種類によっても異なります。この研究の場合,アウトカムである「6か月後に生存または死亡したかどうか」は2値変数で表せるので,第2回の表を用いると,2値ロジスティック回帰を選択できそうです(論文中では,時間変量Cox回帰を使用しました)。ロジスティック回帰では,アウトカムの死亡者,生存者のいずれか少ないほうの数を10で割った数までを説明変数として加えることができます。この研究では,死亡者数69人,生存者数175人でした。ですから,69を10で割った6または7つまで変数を入れることができます。
説明変数の選び方
次に,研究対象因子のせん妄に加え,先ほど割り出した10以上ある交絡因子のうち5つを選び出します。選択法として正しいと思う方法を,以下の(1)-(6)から1つ選んでください。
(1)それぞれの交絡因子を「せん妄あり」「せん妄なし」の2群間でスチューデントのt検定やピアソンのカイ2乗検定などを用いて比較し,有意差の出たもののみ(またはP値の小さい順に5つ)モデルに加える。
(2)それぞれの交絡因子を「死亡」「生存」の2群間でスチューデントのt検定やピアソンのカイ2乗検定などを用いて比較し,有意差の出たもののみ(またはP値の小さい順に5つ)モデルに加える。
(3)すべての交絡因子をモデルに入れ,ステップワイズ法を用いてコンピューターで自動計算し,有意差の出る交絡因子のみを選択する。
(4)すべての交絡因子をモデルに入れ,有意差の出ない交絡因子をコンピューターによる自動計算ではなく自分でモデルから取り除く。
(5)(1)のように,せん妄との関連を単変量解析で調べた後,有意差の出た交絡因子の中からさらにステップワイズ法で有意差の出る交絡因子を探す。
(6)データを一切見ず,文献や医学的見地を参照し,アウトカムである死亡に対するリスク因子の中からリスクの大きい順に5つ選び出す。
いずれもよく用いられる方法ですが,正解は(6)です。(1)から(5)は,データを用いてP値を一番小さくする方法として知られていますが,これらの方法を用いると,P値が小さくなり過ぎてしまうという問題が生じます。「P値は小さいほうがよいのではないか」との声もよく耳にしますが,P値が小さ過ぎると再現性のない結果になりかねません。自分が行った研究では差が出たけれど,他の研究者が同様の研究を繰り返した場合にまったく異なる結果が出てしまうようでは信頼性のある結果とは呼べませんよね。
(1)から(5)では,最終的なモデルに加える変数の数はせん妄を加え6つですが,そこに到達する前に単変量解析やコンピューターによる自動計算などによって多数のP値が計算されています。サンプル数によって決められた6つとは,正確には最終的なモデルに入っている説明変数の数だけではなく,説明変数の選択時に計算されたP値すべてを数えます。ですから,単変量解析でもかなり多くのP値が計算されており,コンピューターによる自動選択法では単変量解析の何十倍もP値が計算されるので,まさに「見過ぎ」が生じてしまうのです。
「見過ぎによる出過ぎ」の問題については,多重検定について解説した第4回(第2941号)でも取り上げましたが,多変量解析においても同様です。多変量解析における「見過ぎによる出過ぎ」は専門用語では「Overfitting」と呼ばれ,雑誌によっては先ほど示した(1)から(5)の方法を使用しないよう指示している場合もあります2)。
交絡除去に対応できるサンプル数の確保を
それでは,(6)の方法を用いて先に進みます。アウトカムである6か月後の死亡生存に大きくかかわっていると考えられる交絡因子を5つ選択し,ロジスティック回帰にせん妄を表す変数と同時に入れます。これにより,せん妄の効果はこれら5つの変数によって交絡されていない,補正された結果として解析することができるのです。
ここでは当然モデルに入れられなかった因子による交絡には対処していないので,それを批判される場合もあります。そのような批判を防ぐためにも,重要な交絡因子は必ず研究前に調査し,モデルに加えて補正しなければならない交絡因子の数を見積もり,それに十分対応できるサンプル数を集めることが重要です。この場合,10個の交絡をどうしても補正したいのであれば,少なくとも「10×10=100」のイベント(この場合死亡者数)が集まるようにサンプルを設定する必要があったといえます。やはり研究開始前のプランニングは不可欠です。
ただし研究によってはどうしても症例数の少ないものもあります。私が最近かかわった論文で,肺結核患者において抗菌薬のフルオロキノロンの使用が耐性菌発生にかかわるかどうかを調査した研究があります。研究が行われたテネシー州では,2002年からの5年間でフルオロキノロン系薬剤耐性菌を持つ患者は640人の研究参加者のうちわずか20人弱に過ぎませんでした3)。この研究はランダム割付のできない観察研究であったため,年齢,性別,人種,HIV感染の有無などの交絡の補正が重要とされ,これらの交絡因子を基にフルオロキノロンの使用に対する傾向スコアを計算し,モデルには4つの変数を1つの傾向スコアに置き換えて補正することで対処しました。
この傾向スコアのように,数多くの交絡因子をデータの情報量を保ちながら少数の変数として作り変える方法を「データ・リダクション法」と呼び,最近では多くの研究で交絡を有効的に補正する方法として用いられています。どうしてもサンプル数が足りない場合には,このように統計的な手法を用いて対処できる場合もあるので,ぜひ専門家に相談してください。
|
(つづく)
参考文献
1)Ely EW, et al. Delirium as a predictor of mortality in mechanically ventilated patients in the intensive care unit. JAMA. 2004; 291(14): 1753-62.
2)Annals of Internal Medicine
3)Devasia RA, et al. Fluoroquinolone resistance in Mycobacterium tuberculosis: the effect of duration and timing of fluoroquinolone exposure. Am J Respir Crit Care Med. 2009; 180(4): 365-70.
いま話題の記事
-
医学界新聞プラス
[第1回]心エコーレポートの見方をざっくり教えてください
『循環器病棟の業務が全然わからないので、うし先生に聞いてみた。』より連載 2024.04.26
-
PT(プロトロンビン時間)―APTT(活性化部分トロンボプラスチン時間)(佐守友博)
連載 2011.10.10
-
事例で学ぶくすりの落とし穴
[第7回] 薬物血中濃度モニタリングのタイミング連載 2021.01.25
-
寄稿 2016.03.07
-
連載 2010.09.06
最新の記事
-
医学界新聞プラス
[第2回]自施設に合ったSNSを選ぼう(前編)
SNSで差をつけろ! 医療機関のための「新」広報戦略連載 2024.10.04
-
取材記事 2024.10.04
-
医学界新聞プラス
[第2回]腰部脊柱管狭窄症_治療の概要
『保存から術後まで 脊椎疾患のリハビリテーション[Web動画付]』より連載 2024.09.30
-
取材記事 2024.09.27
-
医学界新聞プラス
[第2回]どのような場面でGen AIや最新ツールを活用できるのか
面倒なタスクは任せてしまえ! Gen AI時代のタイパ・コスパ論文執筆術連載 2024.09.27
開く
医学書院IDの登録設定により、
更新通知をメールで受け取れます。