医学書院

検索
HOME週刊医学界新聞 > 第2927号 2011年05月09日

第2927号 2011年5月9日


今日から使える
医療統計学講座

Lesson1
統計テストの選び方

新谷歩(米国ヴァンダービルト大学准教授・医療統計学)


 臨床研究を行う際,あるいは論文等を読む際,統計学の知識を持つことは必須です。
 本連載では,統計学が敬遠される一因となっている数式をなるべく使わない形で,論文などに多用される統計,医学研究者が陥りがちなポイントとそれに対する考え方について紹介し,臨床研究分野のリテラシーの向上をめざします。


誤った解析結果は医療スキャンダル

 医学論文を読むたびに,異なる統計テスト(検定)の名前が出てきて戸惑ったり,統計ソフトを目の前にしてどのテストを用いるかで悩んだ経験はありませんか? 逆に,統計テストはt検定とカイ2乗検定だけ知っていれば十分だと思っている方は,さらに要注意です。

 医療統計習得における第一の関門は,分析するデータに合った統計テストの選択ができるようになることです。不適切な統計手法を使うことは,誤った結果を世に出すことにつながります。その結果,効果がないだけでなく副作用の高い薬を投与されたり,待望される薬が世に出ないことで病気が重篤になるばかりか生命までも奪われたりと,患者さんが被害を被る場合もあるのです。

 英国の著名な統計専門家であるDouglas G. Altman氏は,「誤った解析結果を世に出すことは,医療スキャンダルである」とまで言っています1)。実際に,現在発表されている論文でも,誤った解析法を用いたものが少なくありません。そのため,最近では投稿論文の査読時に,統計解析手法が誤っていないか非常に詳細にチェックされるようになりました。

 データに適した検定方法の選出は,患者にとってもEBMをめざす医師・研究者にとっても重要です。そこで今回は,基本的な単変量解析における統計手法の選択方法についてお話しします。

研究に適した統計手法を選んでみよう!

 ここに,3つの研究があります。下記の選択肢のなかから,適切な統計手法を選んでください。

研究1 30人の慢性腎臓病患者のBMIと炎症マーカー(CRP)の相関を調べる。
研究2 新規の鎮静剤を投与した50人の患者と投与しない50人の患者間で血圧を調べる。
研究3 がん患者100人と健常者100人で喫煙の割合を比較する。

[選択肢]ピアソンのカイ2乗検定,スチューデントのt検定,スピアマンの順位相関係数,対応のあるt検定,ピアソンの相関係数,フィッシャーの正確確率検定,マン・ホイットニーのU検定

 ここで難しいと感じた方,安心してください。これから,研究に適した統計手法が選択できるようになる簡単な6つのチェックポイントを紹介します。を参照しながらこれらを正しく理解すれば,統計手法を簡単に選択できるようになります2)

 統計手法を選択する際の6つのチェックポイント(文献2,表16-1より改変)

*ノンパラメトリック検定,それ以外はパラメトリック検定を示す。

差を見るのか,相関を見るのか?
 差とは,「BMIの平均値は男女間で異なるか」など,アウトカムの平均を2つ以上のグループ間で比較することです。相関とは,「男性患者では,BMIの増加は年齢の増加と関連があるか」などのように,1つのグループ内で2つの連続変数(後述)の関連性を調べることです。通常は,研究対象となる患者のグループが1つであれば相関を,2つ以上存在すれば差を見ると考えると簡単です。

比較データは対応しているか?
 「新しく開発された目薬の効果を調べるために,10人の患者に対し,右目に新薬を,左目に既存薬を投与した」という研究を実施したとします。この研究では右目と左目とを比較しますが,比較する右目と左目のデータが同じ患者のものであるため,「対応あり」と見なします。一方,右目,左目のデータがそれぞれ別の10人(計20人)の患者のものであれば,「対応なし」と見なされます。

アウトカムは,連続変数,順序変数,名義変数,2値変数のいずれに分類できるか?
 連続変数とは,年齢や血圧など連続した値を持つものです。一方,性別(0:男性,1:女性)のように,カテゴリーによって分類されたデータをカテゴリー変数と呼びます。さらに,カテゴリー変数の中で,性別のように2つの値しかとらないデータを2値変数といいます。

 カテゴリーが3つ以上になると,そのレベル間で順序付けができるかどうかでさらに分類します。例えば,患者の重症度を示す場合(1:正常,2:中等度,3:重度)は順序変数,病気の種類(1:癌,2:心臓病,3:感染症,4:糖尿病)などは順序付けができないため,名義変数と呼びます。

 また,2値変数でも患者によって追跡期間が異なったり,追跡期間の短い患者でイベントが観測されないような打ち切り例のあるデータの場合は,生存時間解析を用いてカプランマイヤー法などによるログランク検定を用います。

アウトカムが連続変数の場合,その分布は正規分布であるか?
 正規分布とは,データの分布が平均値に近い値の患者が一番多く,平均値から離れるにしたがって左右対称に数が減っていくような釣鐘型の分布のことを言います。実際に正規分布に従うかどうかはデータの分布を示すヒストグラムを描いてみなければわかりませんが,年齢,BMI,血圧など正規分布をとりやすい変数がある一方,入院日数,入院費用,CRPのようなマーカー値,薬剤の投与量など,ほとんどの場合歪んだ分布を取るものもあります。

 データの分布を調べる際には必ず比較群別に調べます。例えば,血圧の差を男女間で比較するとき,分布は必ず男女別々に見ます。分布が正規分布であればパラメトリック検定,そうでなければノンパラメトリック検定,と使い分けます。

比較群間で比較を行うとき,比較群の数は2つか,3つ以上か?
 アウトカムが連続変数の場合,比較群の数が2群か,または3群以上かで選択する統計テストが変わってきます。3群以上であれば,比較群の数に関係なく選択する統計テストは同じです。相関を見る場合は,このポイントは対象外となります。

サンプルの総数は?
 2値変数のアウトカムを群間比較する場合,ピアソンのカイ2乗検定が使えますが,サンプルの総数が20未満の場合はフィッシャーの正確確率検定を使います。アウトカムが連続変数の場合は,サンプル数が少なすぎると正規分布が成り立ちにくくなるため,ノンパラメトリック検定で解析を行います。パラメトリック検定で解析を行うために必要とされるサンプル数は文献によっても異なりますが,最低でも各比較群に15人(t検定ではサンプル総数30人),「対応のあるt検定」では対応のあるサンプルを1組と数えると15組は最低必要でしょう。

 さて,はじめに挙げた3つの研究の正しい統計手法は,(1)(バイオマーカーは歪んでいることが多いので)スピアマンの順位相関係数 ,(2)スチューデントのt検定,(3)ピアソンのカイ2乗検定です。いくつ正しく言い当てられたでしょうか? 次回は,多変量解析についてご紹介します。

Review

 不適切な統計テストを用いると,誤った結果を導いてしまいます。正しく統計テストを選択できるよう,以下をチェックしてください。

・相関を調べるのか,差を比べるのか。
・差を比べる際,比較群の数は2か,3以上か。さらに,比較群に対応があるか。
・アウトカムの種類および分布はどうなっているか。
・サンプル数はいくつあるか。

つづく

参考文献
1)Altman DG. The scandal of poor medical research. BMJ. 1994; 308 (6924): 283-4.
2)Byrne DW著,木原正博,木原雅子訳.国際誌にアクセプトされる医学論文研究の質を高めるPOWERの原則.MEDSI;2000.


新谷歩
1991年奈良女子大数学科卒。96年米国イェール大公衆衛生学部医療統計学修士号,2000年同博士号取得。同年米国退役軍人病院臨床研究総合センターなどを経て,01年米国ヴァンダービルト大助教授,07年同大准教授。2003年から東海大客員准教授,2011年から京都大学非常勤講師を務める。主な専門はICUにおけるせん妄研究,糖尿病,リウマチ,癌,感染症,腎臓病など多分野にわたる臨床データの統計解析。NEJM,JAMA等に多数の論文を掲載。

連載一覧