医学界新聞

連載

2012.03.26

今日から使える
医療統計学講座

Lesson11
同等性・非劣性の解析

新谷歩(米国ヴァンダービルト大学准教授・医療統計学)


2967号よりつづく

 臨床研究を行う際,あるいは論文等を読む際,統計学の知識を持つことは必須です。
 本連載では,統計学が敬遠される一因となっている数式をなるべく使わない形で,論文などに多用される統計,医学研究者が陥りがちなポイントとそれに対する考え方について紹介し,臨床研究分野のリテラシーの向上をめざします。


 通常の解析では,P値が0.05より小さければ「差がある」,0.05以上であれば「差がない」としますが,「差がない」という事実のみに着目して,「比較群が同等である」と判断してはいないでしょうか? これは統計的にみて,絶対にしてはいけません。P値では,差があることは証明できても同等であることを証明することはできないのです。

 では,どうすれば統計的な同等性を示すことができるのでしょうか? 今回は,同等性(または非劣性)を示す解析について説明します。

■"同等性"を示すにはどのような手続きが必要か

例1】新薬と既存薬に10人ずつ割り付けた研究において,アウトカムの死亡率が新薬群で30%,既存薬群で20%でした。仮説検定を行い,この差に統計的な有意差があるかどうか調べたところ,P値は0.6でした。仮説検定は,"新薬と既存薬の死亡率の差が等しい"という帰無仮説を棄却するかどうかとなりますが,P値が0.05以上なので帰無仮説を棄却することはできませんでした。次のうち,この解析結果を正しく表しているのはどれでしょうか?

A.新薬群の死亡率は既存薬群と同じである。
B.新薬群の死亡率が既存薬群と違いがあるとは言えない。
C.新薬群の死亡率(30%)が既存薬群(20%)より低いとは言えない。

 例1の答えはBです。通常の解析では,P値が0.05未満であれば有意差がある,つまり新薬は既存薬に比べて優れているという差(優越性)を示す解析が行われます。この優越性を示す解析の帰無仮説は"新薬群と既存薬群の死亡率の差が等しい(同等である)"ですが,棄却できなかったからといって,帰無仮説を採択できるわけではないのです。

 この場合は,"帰無仮説を棄却するに十分なエビデンスがない"ということに過ぎず,"同等性がある"と言えるわけではありません。今回の例では,サンプル数が各群10と非常に少ないために解析がパワー不足となり,有意差が出なかったに過ぎません。95%信頼区間はこの場合[-30%,50%]となります。つまり同様の研究が繰り返された場合,新薬群の死亡率が既存薬群の死亡率より50%も高くなることもあれば,その逆で新薬群の死亡率が既存薬群の死亡率より30%低くなることもあると解釈できます。差が50%となれば同等性を言うことはできないのは明らかですね。では,下記のような場合はいかがでしょうか。

例2】新薬と既存薬に1000人ずつ割り付け,死亡率が新薬群,既存薬群ともに20%であったとします。この場合,2群間の差がゼロなのでP値は1.0となり,この例でも帰無仮説は棄却されません。では,この例では同等性を示すことはできるでしょうか?

 この場合,95%信頼区間は[-3.5%,3.5%]と計算できます。同様の研究が繰り返された場合,新薬群の死亡率は良い場合で既存薬群よりも3.5%低くなり,悪い場合で既存薬群より3.5%高くなる,と解釈できます。この場合も,P値を用いると例1と同様,P値が0.05より大きいので帰無仮説は棄却されませんが,意味合いがまったく違っているのがわかります。差を表す信頼区間がぐっと小さくなりましたね。

 各群10人の例でも,各群1000人の例でも,P値は0.05よりも大きくなり帰無仮説は棄却されませんでしたが,例1でP値が大きかったのはサンプル数が少なかったからです。一方,例2でP値が大きくなったのは2群の差が小さかったからです。このように,P値は群間の差とサンプル数のどちらによっても変わるので,P値が大きい(帰無仮説が棄却できなかった)だけでは,2群の差がないからなのか,単にサンプル数が不足しているだけなのか,その理由はわかりません。

 同等性を示すためにP値を用いることは禁じられています。"十分なサンプル数"で正確に同等だというために,同等性の解析にはP値ではなく信頼区間を用いる必要があります。例2において,良くても悪くてもプラスマイナス3.5%の差であれば臨床的に同等だとみなしてよいという判断ができれば,同等を示すことができます。ただしこの判断の基準になる,「良くても悪くてもこのくらいであれば許容できる」という同等性の許容範囲(同等性マージン)は研究を始める前に決め,研究計画書に記載しておくことが義務付けられています。

 このように,同等性を示す場合には信頼区間の下限・上限ともに同等性マージンの中にスッポリ入ることが必要ですが,そのためには信頼区間がかなり小さくなるようにサンプル数を十分大きく取ることが必要です。しかしそのような十分なサンプルサイズを確保することは臨床研究では至難の業です。その打開策として登場したのが非劣性試験です。

■信頼区間を使って,同等性,非劣性を見てみよう

 "非劣性"とは,すでに有効な治療薬が存在し,新薬は副作用が少ないなど既存薬よりも利点があるといった場合,既存薬に対し有効性において優越性が証明できなくても,劣っていないことが証明できればそれでよし,といった研究に使われます。同等性を示すマージンが両側であるのに対し,非劣性試験では,新薬が既存薬より劣っていないかどうかのみに注目し,新薬が既存薬より優れているという優越性が成り立っても成り立たなくてもよいので,信頼区間の片側のみに注目します。は,信頼区間を優越性,同等性,非劣性にどう使用していくかを示したものです。それでは見分け方を以下に示します。

 信頼区間を用いた解析例

優越性:"違いがない"という値(この場合はゼロ)を含まない。
同等性:臨床的に意味のある差の下限と上限(両側)のマージンの中にすべて入る。
非劣性:信頼区間の片方が非劣性マージン(片側)より小さい。

 図では,7種類の信頼区間を使って優越性,同等性,非劣性を表しています。それでは1つずつ見ていきましょう。優越性が言えるのは信頼区間がゼロを含まない(3)(5)(7)です。同等性は,臨床的に意味のある差(Δ)に下限も上限も入っている(3)(4)(5)です。非劣性とは新薬が既存薬に対して劣っていないことを示すことなので,既存薬が効果があるほうのマージン(Δ)から信頼区間がはみ出している(2)を除くすべてとなります。

 ここで面白いのが,(3)と(5)は優越性と同等性の両方が成り立っていることです。優越性は統計的判断,同等性は臨床的判断によるものなので,統計的に有意差が出ても(P値が0.05より小さくても),その差が臨床的に同等の範囲に入るものであれば,同等とみなすことができるのです。ですから,統計的な有意差と臨床的な差は区別されるべきものと言えます。

 同等性,非劣性,いずれを目標とした研究においても,その意図を,研究を開始する前に必ずプロトコールに記載することを心がけてください。優越性を目的として始められた研究であるのに,優越性が出なかったからと言って,途中から解釈が非劣性に変わっている研究をよく目にしますが,それはタブーです。同等性,非劣性の研究は解析方法だけでなく,研究のデザインにも考慮すべき点が多くあります。このような注意事項がCONSORT(Consolidated Standards of Reporting Trials;臨床試験報告に関する統合基準)声明に詳細に記されていますので,そちらを参照ください1)

Review

*統計的有意差なし≠同等性。
*同等性,非劣性の解析には信頼区間を用いる。
*同等性,非劣性のいずれを示すための研究なのかをプロトコールに記載し,解析に合った十分なサンプル数を確保する必要がある。

つづく

参考文献
1)Piaggio G, et al. Reporting of noninferiority and equivalence randomized trials: an extension of the CONSORT statement. JAMA. 2006; 295(10): 1152-60.

開く

医学書院IDの登録設定により、
更新通知をメールで受け取れます。

医学界新聞公式SNS

  • Facebook