医学界新聞

臨床研究・疫学研究のための因果推論レクチャー

連載 井上 浩輔,杉山 雄大,後藤 温

2021.06.07 週刊医学界新聞(通常号):第3423号より

 今回は,変数間の因果関係に関する仮説を整理して伝える上で有用なアプローチである,DAGダグ(Directed Acyclic Graph:非巡回有向グラフ)1~3)について説明します。

 解析の際にどの変数をモデルに入れるか困ったことはありませんか? DAGを用いることで,曝露がアウトカムに与える影響を評価するためにどの変数で調整すべきかを検討しやすくなります。なお,第2回に登場した「条件付け」は,統計学的に変数で調整するアプローチの一つです。

 DAGでは変数同士を矢線で結ぶことで,変数間の因果関係に関する仮説を可視化します。また,巡回した経路(X⇆Yなど)を作らないのがDAGのルールで,これにより因果の逆転が起こらないことを仮定します。

 グラフィカルモデルを用いた因果関係の検討は20世紀前半から徐々に認知されてきましたが,2000年代に入りDAGが疫学の世界で本格的に用いられるようになりました1)。DAGを扱う際の基本事項は図1をご覧ください。

3423_0601.jpg
図1 DAGを扱う際の基本事項

 ではX(曝露)からY(アウトカム)への因果効果を推定する上で,DAGがどのように役に立つのでしょうか? 図2の例から一緒に考えてみましょう。

3423_0602.jpg
図2 DAGから因果関係を考える

 例えば図2-Aのように,Xに向かう矢線を含む経路がある場合には,XからYへの因果効果を歪める可能性のあるこの経路は「バックドア経路」と呼ばれます。またこの時生じる因果効果の歪みを「交絡」,その現象の原因となる因子を「交絡因子」と呼びます。したがって,XとYの因果関係を正しく評価するには,Z1で調整してバックドア経路を閉じる必要があります。図2-B・Cの場合もX←(U1)→Z2→Y,X←Z3←(U2)→Yとバックドア経路が開いているため,それぞれZ2,Z3で調整して経路を閉じることで,XからYへの因果効果を評価します4)。ちなみに完璧なランダム化比較試験では,介入をランダムに割り付けることでDAG上においてXに向かう矢印が存在しない(=バックドア経路が存在しない)状況を作っているととらえられます。

 次に,調整すべきでない変数について考えてみましょう。XからYへの効果の一部がM(中間因子)を介在する場合は,図2-Dのように描くことができます。この場合にMで調整すると,X→M→Yの経路が閉じてしまい,XがMを介してYに与える影響を評価することができなくなります。また,図2-EのようにC1に対してX,Yの両方から矢線が向かっている場合は,X→C1←Yの経路は閉じていると判断し,この経路がXからYへの効果の推定を歪めることはありません。しかし,この経路において合流点C1で調整してしまうと,閉じていた経路を開くことになり,図2-Eの通りXとYの間に見かけの関連が生じてしまいます。これを「合流点バイアス」と呼びます。対象者の選定のように,研究デザイン上避けられない選択バイアスもその一例です。なお,図2-Fのように合流点C2で調整したことにより開いた経路も,その経路上にある変数Z4またはZ5で調整することで,あらためて閉じることが可能です。

 まとめると,曝露とアウトカムの因果関係を正しく評価するためには,バックドア経路にある変数を(少なくとも一つ)調整し,中間因子や合流点では調整しないことが重要です。この基本的なルールに従うことで,DAGを用いて調整すべき変数の組み合わせを整理することが可能になります。ただし,DAGは研究者自身が正しいと考える仮説を可視化する補助的なアプローチであり,DAGそのものが新しい知見を生み出すツールではないことは注意してください。

 上記を踏まえ,図3の糖尿病予防プログラム(DPP)と末期腎不全発症リスクの因果関係を例に,調整すべき変数について考えてみましょう。例えば年齢は,DPPを受けるかどうかの判断と末期腎不全のいずれにも影響を及ぼすため,調整することでバックドア経路を閉じる必要があります(図3-a)。同様に喫煙も,教育歴などの社会背景を通してDPPを受けるかどうかと関連し,末期腎不全にも影響します。そのため喫煙で調整し,バックドア経路を閉じる必要があります(図3-b)。

3423_0603.jpg
図3 DAGで整理する,調整すべき変数・調整すべきでない変数

 一方でDPPを積極的に行い,かつ,末期腎不全も専門にする病院Aの外来患者を対象に研究を行う場合,図3-cのように合流点バイアスが生じてしまいます。この場合は,DPPと末期腎不全の因果関係を正しく評価できなくなってしまうので,解釈に注意が必要です。

 交絡因子と中間因子をしっかり区別することも重要です5)。例えば図3-dにおいて糖尿病はDPPから末期腎不全の経路の途中に位置しています。このような中間因子で調整した場合,DPP→糖尿病→末期腎不全の経路が閉じてしまうので,DPPと末期腎不全の因果関係を十分に評価できなくなります。さらに,糖尿病と末期腎不全の両方のリスクとなり得る遺伝子変異など未測定の交絡因子がある場合は,合流点である糖尿病で調整することによりDPPと遺伝子変異に本来存在しない関連が生じてしまい(合流点バイアス),DPP―遺伝子変異→末期腎不全という経路が開いてしまいます。このようなバイアスを避けるためにも,DAGを使って変数間の時間関係を明確にすることが非常に大切です。

 今回はDAGを用いて調整すべき変数を整理する流れを説明しました。研究には多くのバイアスが存在し,バイアスの方向もさまざまです。適切な因果推論を行うにはそれらのバイアスを十分に理解し,可能な限り対処する必要があります。次回以降,具体的な対処方法に触れていきます。


謝辞:ご助言いただいた岡山大学大学院の鈴木越治先生に感謝申し上げます。

1)Epidemiology. 1999[PMID:9888278]
2)鈴木越治,他.医学における因果推論 第二部――交絡要因の選択とバイアスの整理および仮説の具体化に役立つDirected Acyclic Graph.日衛誌.2009;64(4):796-805.
3)J Epidemiol. 2020[PMID:32009103]
4)Eur J Epidemiol. 2019[PMID:30840181]
5)Toxics. 2020[PMID:33419269]