医学界新聞

連載

2011.12.19

今日から使える
医療統計学講座

Lesson8
交互作用

新谷歩(米国ヴァンダービルト大学准教授・医療統計学)


2955号よりつづく

 臨床研究を行う際,あるいは論文等を読む際,統計学の知識を持つことは必須です。
 本連載では,統計学が敬遠される一因となっている数式をなるべく使わない形で,論文などに多用される統計,医学研究者が陥りがちなポイントとそれに対する考え方について紹介し,臨床研究分野のリテラシーの向上をめざします。


 交互作用(または相互作用)は,臨床疫学において交絡と並ぶ重要なコンセプトですが,その交絡と交互作用の違いをきちんと理解している人は少ないようです。今回は,交互作用について説明します。

交互作用はあらゆる研究で考慮されるべき

 交互作用は英語ではInteractionと呼ばれ,「2つ以上のファクターが互いに影響を及ぼし合うこと」と定義されています。よく知られている例ですが,ワルファリンの服用中に納豆などのビタミンKを多く含む食事を制限するのは,ワルファリンとビタミンKが交互作用するからです。臨床研究ではこの交互作用を,Effect Modificationという用語を用いて説明するとわかりやすいようです。研究対象要因の効果(Effect)が他の要因の有無によって変わる(Modifyされる),つまりワルファリンは納豆を食べなければ効果があるが,食べると効果がなくなるので,ワルファリンの効果は納豆を食べるか食べないかによって変えられる,すなわち2つの要因は交互作用していると言えます。

 研究対象要因の効果が他の要因によって変わるという交互作用は,ランダム化比較試験(RCT),疫学研究を問わずあらゆる研究で考慮される必要があります。個人の遺伝子型に沿ってより効果のある薬剤を提供するという個別化医療(Personalized Medicine)も,ある遺伝子があるかないかによって薬剤の効果(薬効)が変わることに着目しているので,解析は交互作用に注目して進められます。

 薬効を調べるRCTでは通常,主要評価項目(エンドポイント)は研究対象者全員による効果の平均的なものとして表されます。しかし実際には,個々の患者によって薬効は異なるはずなので,どのような特性を持った患者に効果があるかを見極めるときに,それぞれの特性ごとに患者をグループ分けして薬効を調べる"サブグループ解析"を行います。薬効(Effect)がサブグループによって変わるかどうか(Modify)を調べることを"交互作用の解析"と言います。

どのような特性を持つ患者により効果が期待できるのか

 ではここからは,2005年にLancetに掲載されたATAC試験を例に解説します1,2)。ATAC試験は約9400人の閉経後・早期乳がん患者を対象として2001年に開始された世界最大規模の臨床試験です。5年以上にわたってアナストゾールとタモキシフェンの効果を比較した結果,アナストゾールがタモキシフェンよりも治療効果に優れていることが示唆されました。

 例えば,乳がんの再発率を比較するハザード比は0.79[95%信頼区間=0.70-0.90,p=0.0005],つまりアナストゾールの投与により,再発率が21%削減したと理解できます。しかし,これは研究対象者全員の平均的な結果に過ぎないので,どのような特性を持った患者に対してより効果があったのかを調べるために,リンパ節の状態,腫瘍サイズ,ホルモン受容体(陽性/陰性),過去の薬物治療の有無などによってグループ分けを行い,それぞれのグループごとにアナストゾールの効果が解析されました()。

 ATAC試験のサブグループ解析の結果(文献2より改変)

 ホルモン受容体陽性患者では,アナストゾールのハザード比は信頼区間に効果がないという値の1を含んでいないので有意差があり,一方,ホルモン受容体陰性患者では,ハザード比が1に近く信頼区間も1を含んでいるので有意差がないとされました。この結果から,ホルモン受容体陽性患者のほうがアナストゾールの効果が大きいと結論付けられたようです。

交互作用の解析は非常に難しい

 このように,患者の特性によって薬効が変わる交互作用は臨床的にも大変重要な意味を持ちますが,実は交互作用の解析は大変難しいことが知られています。先ほどの例で薬効が変わることに対するエビデンスとして,「あるグループでは有意差が出たけれど,他方では出なかった」というように,有意差のみに着目してしまうと大きな問題が起こってきます。

 例えば,腫瘍サイズごとの薬効を見てみると,腫瘍サイズが2cm以下の患者のハザード比は信頼区間が1を含むので有意差なし,2cmを超える腫瘍の患者のハザード比は信頼区間が1を含まないので有意差ありと判断できます。両者のハザード比の差はごく小さいのに,アナストゾールの効果が腫瘍サイズによって変わる,つまり交互作用があると結論付けてしまってもよいのでしょうか? 言い換えれば,同様の研究が将来的に行われたときに,腫瘍のサイズによってアナストゾールの効果に違いがあることが再現可能なのかということです。

 答えはもちろんNOです。ランダムにデータを取ることによる不確実性は信頼区間によって表されますが,図を見ると,腫瘍サイズによる二つの信頼区間を比べるとはっきりと重なっていますね。つまりこの不確実性により,同様の研究が行われたとき,二つのハザード比が逆転することも考えられるのです。これらのハザード比は統計的に異なるとは言えません。このように,交互作用が起こっているかどうか,統計的にエビデンス付けを行うことを"交互作用の解析"と呼び,通常は回帰分析を用いて行います。

 図が示すように,ATAC試験ではすべてのサブグループの解析で信頼区間が重なっているので,交互作用の解析では,どのサブグループ間でも有意差を見ることができませんでした。この試験の結果,アナストゾールは閉経後のホルモン受容体陽性患者を対象にした乳がんの治療薬として推奨されましたが,ホルモン受容体による交互作用に統計的なエビデンスは採られていなかったようです。

 データをサブグループごとに解析するとそれぞれの解析のサンプル数が減るので,交互作用の解析は通常パワーが落ちることが知られています。臨床的には意味のある差に統計的な有意差が出なかった理由として,この試験ではサンプル数が主要評価項目の全員のデータを用いた平均的な効果に対して見積もられ,交互作用の有意差を検出するために必要な数の見積もりが行われていなかったことが挙げられます。

 しかし,約9400人の被験者を対象に行われた世界最大規模の臨床試験であっても交互作用の有意差を検出するにはパワー不足だったことで,交互作用の解析がいかに困難なものか,ご理解いただけたのではないでしょうか。言い換えれば,交互作用の解析は通常パワーが落ちるので,たとえ有意差が出なかったとしても,臨床的に薬効がすべての患者に等しいというわけではないのです。ですから,結果の解釈には注意が必要です。

 このように,臨床的には非常に意味のある交互作用ですが,その解析,解釈が大変難しいため,NEJMではサブグループ解析による交互作用の解析ガイドラインを紹介しています3)。このガイドラインでは,先に挙げた点のほかに,「サブグループの数が多くなりすぎると多重比較の問題が起こるため,どのサブグループで薬効を調べるか,事前にプロトコールに載せることを心掛けるべき」など,注意すべき事柄が細かく記載されています。

Review

*臨床研究では,交互作用をEffect Modificationとしてとらえると理解しやすいです。
*サブグループごとの解析の有意差のみでは,交互作用は判断できません。
*効果がサブグループ間で変わるかどうかは,統計的なエビデンスが必要です。
*交互作用の解析はパワーが落ちます。サンプル数の計算時に注意が必要です。
*交互作用を調べる項目は,プロトコールに記載しておきます。

つづく

参考文献
1)Howell A, et al; ATAC Trialists' Group. Results of the ATAC (Arimidex, Tamoxifen, Alone or in Combination) trial after completion of 5 years' adjuvant treatment for breast cancer. Lancet. 2005; 365 (9453) : 60-2.
2)Cuzick J. Forest plots and the interpretation of subgroups. Lancet. 2005; 365 (9467) : 1308.
3)Wang R, et al. Statistics in medicine――reporting of subgroup analyses in clinical trials. N Engl J Med. 2007; 357 (21) : 2189-94.

開く

医学書院IDの登録設定により、
更新通知をメールで受け取れます。

医学界新聞公式SNS

  • Facebook