医学界新聞

臨床研究・疫学研究のための因果推論レクチャー

連載 杉山 雄大,井上 浩輔,後藤 温

2021.08.02 週刊医学界新聞(通常号):第3431号より


 今回は,多変量回帰モデルの説明と,回帰係数を直接的に因果効果と解釈できるために必要な仮定を説明します。

 回帰モデルとは,現実を簡略化し,数式で変数間の関係を表したものです。統計の講義で最初に習う最も単純な回帰モデルはY=α+βXという式でしょう。では散布図の点が標本の観察データを表しています。Xが決まってもYは1つに決まりませんが,回帰モデルを用いるとばらつきに当たりをつけられます。係数βは,「平均して,Xの1の増加は,Yのβの増加と関連がある」ことを意味します。図ではXは連続変数ですが,0または1の2値変数などでも構いません。また,回帰モデルは本来Yを予測するモデルにすぎず,その作成においてXとYの因果関係を想定する必要はありません。

3431_0401.png
 散布図と回帰直線(架空のデータ)

 上記のように説明変数(X)が1つのものを単回帰モデルと呼びますが,複数(例えばXとZなど)の場合は多変量回帰モデルと呼びます。一般に,目的変数(Y)が連続変数の場合,Y=α+βXX+βZ1Z1+βZ2Z2……などの「線形回帰モデル」を用います。一方でYが(0,1)の2値変数の場合には,Yの代わりにY=1である確率P(Y)で表される関数R(Y)についてのモデルを構築します〔R(Y)=α+βXX+βZ1Z1+βZ2Z2……〕。このように目的変数の型やその分布によって定める関数R(Y)をリンク関数と呼び,Yが従うことを仮定する分布を分布族(あるいは指数型分布族,family)と呼びます。リンク関数と分布族を変えることで線形回帰モデルを応用したモデルを総じて,一般化線形モデル(Generalized Linear Model:GLM)と呼びます。各モデルのβXの解釈を表1に示します。

3431_0402.png
表1 代表的な一般化線形モデル(GLM)の種類と,βXの解釈(クリックで拡大)

 なお,R(Y)=α+βXX+βZ1Z1+βZ2Z2+βXZ1XZ1のように,XとZ1の積の項(XZ1,交互作用項と呼ぶ)が含まれると,XとR(Y)の関係はZ1の値による変化をモデルに許すことになります。逆に言えば,交互作用項を含めないモデルの場合,XとR(Y)の関係はZ1の値によって変化しないとの仮定をモデルに課していることになります。

 現実を簡略化するモデルを作った時点で(正しいかどうかわからない)仮定を課している点に留意が必要です。他にも,R(Y)とZ1がU字型の関連を有するのにZ1の一次項しか入っていない〔R(Y)とZ1の間に直線関係を仮定している〕場合など,モデルが現実をうまく表していないことの総称を「モデルの誤設定」と呼び,正しい推定結果が得られない原因となります。

 ではどのような時に多変量回帰モデルを因果効果の推定に用いるのでしょうか。Xを曝露,Yをアウトカム,Z(Z1,Z2,……)を調整すべき変数として,XのYに対する因果効果を推定します。第4回の説明の通り,Zの組み合わせごとに層別化し,各層の効果を標準化すれば平均因果効果を得られますが,Zが増えると組み合わせが増え,各層での効果の計算が難しくなります。特にZの一部が連続変数の場合は,取り得る全ての値での層別化は不可能です。

 ここで回帰モデルが登場します。DAGで整理された調整すべき変数を用いて(第3回参照),R(Y)=α+βXX+βZ1Z1+βZ2Z2……の回帰モデルを作ります。未調整交絡因子がない場合,Z1,Z2,……の調整でX-Y間のバックドア経路が全て閉じるため,βXはZ1,Z2,……それぞれの値が同じ人の集団におけるXのR(Y)に対する効果(条件付き効果)を表すこととなります。加えて,交互作用項が含まれていないモデルで誤設定がない場合,すなわちXとR(Y)の関係がZの値によって変わらない(無視できるほど差が小さい)場合には,......

この記事はログインすると全文を読むことができます。
医学書院IDをお持ちでない方は医学書院IDを取得(無料)ください。