医学界新聞

臨床研究・疫学研究のための因果推論レクチャー

連載 井上 浩輔,杉山 雄大,後藤 温

2021.10.04 週刊医学界新聞(通常号):第3439号より


 前回までは,研究開始時の曝露状況が追跡期間中に変わらないシンプルなシナリオを扱ってきました。しかし実際の研究では,曝露状況が時間とともに変化するケースに出会うことがしばしばあります。例えばコホート研究において,研究開始時にスタチンを内服していた人が,その後のフォローアップで内服を中断していた場合などです。今回は,スタチンを内服継続する場合の3年後の冠動脈疾患発症リスクが,全く内服しない場合のリスクと比べてどの程度下がるか,という経時的な情報を含む臨床の疑問に答えるための手法を紹介します1~3)

 そもそもなぜ,曝露状況が変化する際に特別な注意を払う必要があるのでしょうか? この問いに答えるために前回までの連載内容から,調整すべき交絡因子について図1-Aの例で考えてみましょう。コホート研究開始時のスタチン内服(T1)による冠動脈疾患発症(Y)への因果効果を推定するには,研究開始時の年齢,性別,冠動脈疾患既往,LDLコレステロール値(LDL-C,C1)を調整することで,バックドア経路(T1←C1→Y)を閉じる必要がありました。ここで,1年後フォローのLDL-C(C2)は中間因子であるため調整することは望ましくありません(第3回参照)。一方で,1年後フォローのスタチン内服(T2)によるYへの因果効果を求める際には,バックドア経路(T2←T1→Y,T2←C2→Y)を閉じるために,C1の他にT1,C2でも調整しないとバイアスが生じます。以上から,研究開始時・フォロー時共にスタチン内服していない参加者(T1=T2=0)と比較して,両時期にスタチン内服している参加者(T1=T2=1)の冠動脈疾患発症リスクがどの程度下がるかを,T1,T2,T1×T2を含んだ一般的な回帰モデルで検討するのは困難です。

3439_0401.jpg
図1 時間とともに変動する曝露・交絡因子のDAG(クリックで拡大)

 そこでまず,IPTWのアプローチを紹介します(図2-A)。図1-Aで難しかった点は,T1にとって中間因子であるC2が,T2にとっては調整すべき交絡因子であることでした。一方で図1-Bのように,C2がT2へ直接影響を与えなければ調整すべき交絡因子でなくなるため,この問題は解消され,内服なし群(T1=T2=0)と比較した時の内服継続(T1=T2=1)によるYへの因果効果を求められます。

3439_0402.jpg
図2 IPTWとG-computationの基本的なステップ(クリックで拡大)

IPTWでは,各対象者にそれぞれ重み(例えば重みが10の人は,重みが1の人の10人分の情報として扱われることを意味する)を与えることでデータの構造を変え,C1,C2からT1,T2へ向かう矢印を消せます(図1-B: 一部の研究者はこのようなグラフの変換をgraph surgeryと呼ぶこともある4))。重みは次のように同定されます(註1)。

3439_0404.jpg

 重みの分母P(T1|C1),P(T2|T1,C1,C2)はそれぞれ,(第6回で扱った)T1,T2に対する傾向スコアであり,IPTWは傾向スコアを用いた手法の一つとして紹介されることもあります。一方,それぞれの重みの分子は,T1の確率P(T1)とT1で条件付けたT2の確率P(T2|T1)で与えられます。
 各対象者に対する重みを計算したら,その分布を確認しましょう(註2)。重み付けで曝露・非曝露における共変量のバランスが十分に取れていると確認できたら,重み付けしたデータの内服なし群(T1=0,T2=0),内服継続群(T1=1,T2=1)のアウトカム(反事実リスク)を比較,またはYを目的変数,T1,T2を説明変数とした回帰モデルに重み付けすることで,スタチン内服継続による冠動脈疾患発症リスクの因果効果を算出できます()。

re_3439_0403.jpg
 IPTWを用いて推定された因果リスク比
:修正ポアソン回帰モデルを用いた。95%信頼区間はブートストラップ法で算出した。
詳細は  コマンド を参照

 G-computationのアプローチも,時間とともに変化する曝露の因果効果を求める際に有用です。第4回では,層別解析による標準化を紹介しました。G-computationは,回帰モデルを用いることで,連続データの交絡因子が存在する場合などに拡張した手法です。具体的には,アウトカムに対する予測モデルを用い,集団全体が曝露された場合と曝露されなかった場合のアウトカムをそれぞれ予測して因果効果を推定します(図2-B)。
 IPTWでは曝露に対するモデル,G-computationではアウトカムに対するモデルが誤設定されていないことが,正確に因果効果を推定するための鍵です(註3)。上記では集団全体を標的集団とする平均因果効果を求める例を紹介しましたが,標的集団を(集団全体ではなく)興味ある任意の集団に設定することも可能です。IPTWやG-computationは,曝露因子が時間とともに変化する場合以外にも汎用性が高く,特にIPTWは医学研究でも広く使われている手法です。ぜひこの機会に,基本的な考え方や特徴,ステップについて理解しておきましょう。


註1:厳密には図1のそれぞれのDAGにおける確率分布を用いて算出する。具体的な算出方法については,図2および文献4を参照していただきたい。
註2:曝露の確率が極端に小さい・大きい場合には重みが非常に大きくなるため,必要に応じて99%点以上は99%点の値を適応するなど,特別な対応が必要である5)。​​​​​​​
註3:曝露に対するモデルとアウトカムに対するモデルを組み合わせることで,2つのモデルの少なくともどちらか一方が正しい場合に,因果効果の一致推定となる二重ロバスト推定量という手法も近年広く使われている。

謝辞:岡山大学の鈴木越治先生にご助言をいただきました。心より感謝申し上げます。

1)佐藤俊哉,他.交絡という不思議な現象と交絡を取りのぞく解析――標準化と周辺構造モデル.計量生物学.2011;32:S35-S49.
2)J Epidemiol. 2020[PMID:32684529]
3)Stat Med. 2013[PMID:23208861]
4)Pearl J. The foundations of causal inference. Sociological Methodology. 2010;40(1):75-149.
5)Am J Epidemiol. 2010[PMID:20716704]