医学界新聞

臨床研究・疫学研究のための因果推論レクチャー

連載 杉山 雄大,井上 浩輔,後藤 温

2021.08.02 週刊医学界新聞(通常号):第3431号より


 今回は,多変量回帰モデルの説明と,回帰係数を直接的に因果効果と解釈できるために必要な仮定を説明します。

 回帰モデルとは,現実を簡略化し,数式で変数間の関係を表したものです。統計の講義で最初に習う最も単純な回帰モデルはY=α+βXという式でしょう。では散布図の点が標本の観察データを表しています。Xが決まってもYは1つに決まりませんが,回帰モデルを用いるとばらつきに当たりをつけられます。係数βは,「平均して,Xの1の増加は,Yのβの増加と関連がある」ことを意味します。図ではXは連続変数ですが,0または1の2値変数などでも構いません。また,回帰モデルは本来Yを予測するモデルにすぎず,その作成においてXとYの因果関係を想定する必要はありません。

3431_0401.png
 散布図と回帰直線(架空のデータ)

 上記のように説明変数(X)が1つのものを単回帰モデルと呼びますが,複数(例えばXとZなど)の場合は多変量回帰モデルと呼びます。一般に,目的変数(Y)が連続変数の場合,Y=α+βXX+βZ1Z1+βZ2Z2……などの「線形回帰モデル」を用います。一方でYが(0,1)の2値変数の場合には,Yの代わりにY=1である確率P(Y)で表される関数R(Y)についてのモデルを構築します〔R(Y)=α+βXX+βZ1Z1+βZ2Z2……〕。このように目的変数の型やその分布によって定める関数R(Y)をリンク関数と呼び,Yが従うことを仮定する分布を分布族(あるいは指数型分布族,family)と呼びます。リンク関数と分布族を変えることで線形回帰モデルを応用したモデルを総じて,一般化線形モデル(Generalized Linear Model:GLM)と呼びます。各モデルのβXの解釈を表1に示します。

3431_0402.png
表1 代表的な一般化線形モデル(GLM)の種類と,βXの解釈(クリックで拡大)

 なお,R(Y)=α+βXX+βZ1Z1+βZ2Z2+βXZ1XZ1のように,XとZ1の積の項(XZ1,交互作用項と呼ぶ)が含まれると,XとR(Y)の関係はZ1の値による変化をモデルに許すことになります。逆に言えば,交互作用項を含めないモデルの場合,XとR(Y)の関係はZ1の値によって変化しないとの仮定をモデルに課していることになります。

 現実を簡略化するモデルを作った時点で(正しいかどうかわからない)仮定を課している点に留意が必要です。他にも,R(Y)とZ1がU字型の関連を有するのにZ1の一次項しか入っていない〔R(Y)とZ1の間に直線関係を仮定している〕場合など,モデルが現実をうまく表していないことの総称を「モデルの誤設定」と呼び,正しい推定結果が得られない原因となります。

 ではどのような時に多変量回帰モデルを因果効果の推定に用いるのでしょうか。Xを曝露,Yをアウトカム,Z(Z1,Z2,……)を調整すべき変数として,XのYに対する因果効果を推定します。第4回の説明の通り,Zの組み合わせごとに層別化し,各層の効果を標準化すれば平均因果効果を得られますが,Zが増えると組み合わせが増え,各層での効果の計算が難しくなります。特にZの一部が連続変数の場合は,取り得る全ての値での層別化は不可能です。

 ここで回帰モデルが登場します。DAGで整理された調整すべき変数を用いて(第3回参照),R(Y)=α+βXX+βZ1Z1+βZ2Z2……の回帰モデルを作ります。未調整交絡因子がない場合,Z1,Z2,……の調整でX-Y間のバックドア経路が全て閉じるため,βXはZ1,Z2,……それぞれの値が同じ人の集団におけるXのR(Y)に対する効果(条件付き効果)を表すこととなります。加えて,交互作用項が含まれていないモデルで誤設定がない場合,すなわちXとR(Y)の関係がZの値によって変わらない(無視できるほど差が小さい)場合には,βXは集団全体を標的対象集団とする平均因果効果(周辺効果)に近似します2)

 例として前回と同じアスピリン投与と冠動脈疾患発生の架空のシナリオで考えます。前回のDAGに従うと,Xはアスピリン投与の有無(曝露),Yは冠動脈疾患発生の有無(アウトカム),Zは冠動脈疾患既往の有無となります。表1で示したロジスティック回帰モデル,修正ポアソン回帰モデルを用いて求めた結果は表2です(註1)。

3431_0403.png
表2 多変量回帰モデルの結果(架空のデータ)

 ご覧の通り,修正ポアソン回帰モデルで計算したアスピリン投与のリスク比は,前回計算した因果リスク比と同じです(註2)。一方で,ロジスティック回帰モデルから計算したオッズ比はそれよりも小さい(1から離れた)値です。オッズ比の計算の特性上生じるもので,アウトカムの発生割合が低い場合にはリスク比に近似できるものの,その条件を満たさない研究も多く存在します。またオッズ比では,平均因果効果が各層で求めた因果効果よりも1に近づくこともあります(Noncollapsibilityと呼ぶ)3)。オッズ比をリスク比と混同せず,解釈を慎重に行うよう心掛けましょう(註3)。

 今回説明した回帰モデルは,変数間の関係をシンプルに表せる,因果推論の基本となる重要な手法です。一方で因果効果として結果を解釈する際は,多くの仮定を満たす必要があります(表3)。さらに,前述の通り回帰モデルの係数から直接的に平均因果効果を調べるには,上記の交互作用がないとの仮定を満たす必要があります。回帰モデルだけではこれらの仮定のいくつかを満たさない場合や,時間変動する曝露の場合の因果効果を求めるには,次回以降説明する少し発展的な手法の出番となります。

3431_0404.png
表3 因果効果を推定するために必要な主な仮定

註1:ちなみに多変量回帰モデルでは,X(アスピリン投与)もZ(冠動脈疾患既往)も同列にモデルに含められるが,表2で示したZに対するオッズ比・リスク比は,ZがYに与える全体の因果効果ではない点に注意が必要である。なぜなら,「アスピリン投与→冠動脈疾患発生」の因果効果の推定には冠動脈疾患既往の交絡因子が調整されている一方,冠動脈疾患既往→冠動脈疾患発生の因果効果の推定ではアスピリン投与の調整によってアスピリン投与を介した間接効果がブロックされているためである(第3回参照)。

註2:本シナリオでは冠動脈疾患既往有無別の層別因果リスク比が同じに設定されていて,交互作用がなかったために条件付き効果と平均因果効果が一致している。

註3:筆者らが統計ソフトRを用いて作成したコマンドを公開する。
  ダウンロード 

 ※文字化けして閲覧ができない方はこちらのPDFをご覧ください

謝辞:ご助言いただいた米ハーバード大学の芝孝一郎先生に感謝申し上げます。

1)Am J Epidemiol. 2004[PMID:15033648]
2)Stat Med. 1994[PMID:8073203]
3)Hernán MA, et al. Causal inference:what if. Boca Raton:Chapman & Hall/CRC;2020.

開く

医学書院IDの登録設定により、
更新通知をメールで受け取れます。

医学界新聞公式SNS

  • Facebook