医学界新聞

臨床研究・疫学研究のための因果推論レクチャー

連載 井上 浩輔,杉山 雄大,後藤 温

2021.09.06 週刊医学界新聞(通常号):第3435号より


 今回は因果推論の手法の中でも広く応用されている「傾向スコア(Propensity Score:PS)分析」について説明します1, 2)。具体的なアプローチに入る前に,まずはPSとは何か考えてみましょう。

 前回までの因果推論の解説は交絡因子が1つしか存在しない単純な場合に限定していました。しかし,実際の研究では交絡因子が多く存在します。ただし,交絡因子が多いとその分,各値を取るパターン(交絡因子の組み合わせ)が指数関数的に多くなり(例えば,二値変数が10存在すると,210=1024通りの層ができる),実際上は層別解析が不可能になってしまいます。このような状況でも,アウトカムの回帰モデルが交絡調整に有用であることは前回の連載で説明した通りですが,アウトカムの発生数が少ないとモデルの推定値が不安定になる場合もあります。一方で,もしアウトカムに比して曝露の頻度が多いようであれば,これら複数の交絡因子の情報を一つの値に集約した指標,すなわちPSを用いることもできます。

 具体的には,曝露Xの有無を被説明変数,交絡因子Z1,Z2,……を説明変数としたロジスティック回帰モデルlog〔P(X=1)/{1-P(X=1)}〕=α+βZ1Z1+βZ2Z2,……を当てはめ,各個人の持つ実際のZ1,Z2,……の値をモデルに代入することで得られる「各個人がX=1である確率」を,PSとして使うことができます(曝露との関連によっては一次項のみでなく,交互作用項や二乗項などを含めることもある)。

 PSは交絡に対処するために求める指標であり,モデルの右辺に投入する変数は交絡因子です。すなわち曝露を予測する全ての因子とは限らない点には注意しましょう(註1)。

 では,このPSをどのように使えば,交絡を調整できるのでしょうか?

 まず,交絡に対処するというPSの役割を直感的に理解しやすいアプローチとして,アウトカムモデルの共変量に用いる方法を紹介します。今回もアスピリン投与(X)が冠動脈疾患発症(Y)を予防する効果について考えてみます。図1のDAGに示すように,アスピリンと冠動脈疾患には多くの交絡因子(Z)が存在します。これらの交絡因子を用いてアスピリンのPSを算出し,Yに対する(例えば)ロジスティック回帰モデルlog〔P(Y=1)/{1-P(Y=1)}〕=α+βXX+βPSPSを当てはめます。するとアスピリン投与から冠動脈疾患発症に向かうバックドア経路が,PSの調整で(曝露と共変量が独立となるため)全て閉じたと判断でき,アスピリン投与による因果効果をβXとして求められます。

3435_0401.jpg
図1 DAGによる傾向スコアの概念図
傾向スコアで調整することでアスピリンと共変量(=年齢,性別,脂質異常症,冠動脈疾患既往)が独立となるため,それぞれの変数全てで調整した時と同様にアスピリン投与から冠動脈疾患発症へのバックドア経路が全て閉じたと判断できる。

 次に,PSの枠組みでよく使われているマッチングのアプローチについて紹介します。PSマッチングは,上記で求めたPSが同じ値を取るような曝露群・非曝露群のペアを抽出することで,両群における共変量のバランスを取る手法です。実際にはPSが完全一致するペアを選ぶのは難しいため,ある程度の差〔キャリパーと呼ぶ。一般的にはlog(PS/1-PS)の標準偏差×0.1~0.2程度〕3)を許容した上でPSの近いペアを選択することで,片方の群にしか存在しないようなPSの値を取るサンプルが除外されます(図2)。

3435_0402.jpg
図2 曝露群・非曝露群における傾向スコアの分布
PSが完全に一致するペアを選ぶのは難しいため,キャリパーを許容した上でPSの近い曝露群・非曝露群のペアを選択する。

 このようにPSを基に解析の対象集団を選択することで,両群の交絡因子の分布が近いデータを作ることができます(図3)。マッチング後の効果の推定にはさまざまな方法がありますが,ランダム化比較試験のように両群のアウトカム頻度を直接比較することで因果効果を推定できます。PSを算出するモデルに含めた変数のバランスを見ると,まるでランダム割り付けをしたように均等に割り振られていますが,未測定の交絡因子を含めたその他の変数がバランスできていない点はランダム化比較試験と大きく異なるので注意が必要です。

3435_0403.jpg
図3 傾向スコアマッチング前後の,曝露群・非曝露群における共変量のバランス評価
一般的に標準化差(両群の平均の差が,各群から統合された標準偏差に対してどの程度かを表す指標)<10%で,共変量のバランスが取れていると判断することが多い。バランスが取れていない場合は,交互作用項や二乗項などを入れて曝露に対する,より柔軟なモデルを構築することで,標準化差が小さくなる場合がある。

 また,PSを用いることでアウトカムモデルを誤設定する可能性が避けられます。その代わりPSを計算するモデルが誤設定されていない仮定が重要となります。交互作用項や二乗項などを入れて,曝露・非曝露群で共変量のバランスが十分に取れるPSのモデルをしっかりと構築しましょう。

 PSを共変量として用いる場合とマッチングをする場合とでは,いずれも交絡の対処を目的としている点で基本は同じです。ところが,標的集団(効果の定義される集団)の違いにより,解釈の異なる結果が得られることがあるため(表,註2),リサーチクエスチョンに応じてどれを用いるか検討する必要があります。なお,PSに関連するアプローチとして,逆確率重み付けという手法もあります(註3)。詳しくは次回,標準化とともに解説します。

3435_0404.jpg
 傾向スコア(PS)を共変量,またはマッチングで用いた際に推定される因果リスク比

註1:交絡因子でなくてもアウトカムを予測する因子もモデルに含めたほうが,因果効果推定値のばらつきが小さくなることが示されている。一方,曝露を介してのみアウトカムに影響を及ぼす変数(操作変数と呼ぶ)をモデルに含めてしまうと,推定される因果効果のばらつきが大きくなり,未測定交絡が存在する場合にはバイアスも増強してしまう可能性があるため注意が必要になる4)

註2:筆者らが統計ソフトRを用いて作成したコマンドを公開する。
    ダウンロード 

註3:他にも,PSによって(10分割など)いくつかのグループに層化して,それぞれの層内で推定された値から因果効果を求めるアプローチもある。しかし,各層内でPSの値が変化すると交絡因子のバランスが崩れることから,本文中の2つに比べると使われる頻度は低いのが現状である。詳細は文献1,2をご参照いただきたい。

謝辞:ご助言いただいた東京理科大学の篠崎智大先生に感謝申し上げます。

1)篠崎智大.傾向スコア解析の考え方.整形外科.2020;71(6):571-6.
2)J Epidemiol. 2021[PMID:34121051]
3)Pharm Stat. 2011[PMID:20925139]
4)Stat Med. 2007[PMID:16708349]

開く

医学書院IDの登録設定により、
更新通知をメールで受け取れます。

医学界新聞公式SNS

  • Facebook