医学書院／週刊医学界新聞【連載　実践統計学入門】（第２２４１号　1997年5月26日）

連載 Evidence-Based Medicineのための

実践統計学入門

山本和利　京都大学医学部附属病院総合診療部講師

(4)　仮説検定・t検定

●事例1

　50人の高血圧患者を抽出し，降圧剤Aによる無作為対照試験の同意を得て，25人ずつの2群に分け経過を観察した。
　その結果は両群ともベル型に分布し，治療群は平均血圧の平均値：98mmHg，標準偏差（SD）：6mmHg，コントロール群は平均血圧の平均値：102mmHg，SD：8mmHgであった。「治療群とコントロール群の4mmHgの差は偶然で説明できるだろうか？」

●帰無仮説

　ある群とある群に違いがあることが期待されるとき，「差がない」という帰無仮説を立てる。帰無仮説が否定されれば，差があることになる。このとき採用するものを対立仮説と呼ぶ。
　2群に差がないとの仮定（帰無仮説H₀：μ＝μ₀）のもとで測定したデータから得られた確率（P）を，正規（Ｚ）分布やt分布などを用いて検定量Z値やt値から求める。
　あらかじめ決めておいた有意水準α（通常5％または1％）とｐ値を比較し，ｐ値がαより小さければ小さいほど，めったに起きないまれなことが起きたとして，帰無仮説を捨てて対立仮説をとる。ｐ＜0.05やｐ＜0.01という固定したα水準がよく使われるが，できれば実際の数値を記載したほうがよい。

●αエラーとβエラー

　求めた確率が小さいからと，偶然に起きた差を有意な差と早とちりしてしまい，帰無仮説が正しいのにそれを棄却することをαエラーと呼ぶ（「あわてんぼう」と覚える）。また，求めた確率が大きいからと，差を見逃してしまい，誤った帰無仮説を採択することをβエラーと呼ぶ（「ボンヤリ」と覚える）。その関係は表1のようになる。

　これを病室の火災報知機にたとえて説明しよう。火が出ていないのに警報が鳴るのがαエラーである。火が出ているのに警報が鳴らないのがβエラーである。差があったときにその差を検出する力（火が出ると警報が鳴る）を検出力と呼び，標本数nが大きいほど強くなる。検出力＝（1-β）という関係にある。一般には検出力は0.8以上が求められる。　
　標本の大きさが一定であれば，αとβをともに小さくすることはできない。とすると，有意差検定ではαを0.05またはそれ以下に固定しているので，βを小さく（検出力を大きく）するためにはnを大きくすることになる（図1）。

●両側検定か片側検定か

　検定の仕方には，棄却域を両側に設ける両側検定と，片側だけに設ける片側検定とがある。両側検定では帰無仮説（H₀）はμ＝μ₀で，対立仮説（H₁）はμ≠μ₀となる。しかし，片側検定は治療群のほうがコントロール群よりよいという前提で行なわれるので，帰無仮説H₀はμ＝μ₀であるが，対立仮説H₁はμ＞μ₀である。帰無仮説H₀が正しいときには，両側と片側とに差はないが，棄却する際にはその棄却域が異なり，片側検定のほうが基準が甘くなる。片側検定を用いるためには，治療群のほうがコントロール群よりよいということが完全に保証されていなければならない。
　医学の研究では，治療群の方がコントロール群よりよいという保証はないので，治療群の有効性をいうためには両側検定が必要である。
　参考までに述べると，95％信頼区間はｐ値が0.05の水準で受け入れられる帰無仮説の範囲を示してくれる。

●t検定

　標本数が小さいと，どうしても正規分布しない。母集団の分散もわからないことが多い。そこで標本数が小さい2群間比較をするときにはt検定を用いることになる。
　t分布は標本数が少ないときの分布を示したものであり，標本が大きくなればt分布は正規（Z）分布に近似する。最近では，コンピュータ統計ソフトに両群のn_A，n_B，平均値（ｘ_A，ｘ_B），標準偏差（s_A，s_B）を入力すると簡単に結果を得ることができる。
　事例では2群の差：4.00，SE：2.00，自由度48でt＝2.000，p＝0.051という結果が得られた（表2）。

　t値からｐ値を求めるには以下のようにする。t値は標本サイズによって異なるので，標本がn人のときには自由度（n－1）のところをみる。自由度とは「自由に動ける変数」という意味で，n人の平均値がわかっているときには，（n－1）人のデータは自由に決められるが残りの1人は自動的に決まってしまうことを意味する。
　自由度が30を越えるとt値はZ値に近似するが，それ以下で統計的な有意を言うためにはZ値より大きなt値が要求される。例えば両側検定でα＝0.05に当たるのは，標本数を無限とするZ値では1.96と一定であるが，25人の標本数ではt値＝2.06（自由度24），5人の標本数ではt値＝2.78（自由度4）になる。
　これを計算で求めると，以下のようになる。スチューデントのt統計量は

に近似する^1）。

となり，t＝2が得られる。
　事例では，t分布表で（n_A－1）＋（n_B－1）＝48の自由度，t＝2.0をさがすと，一番近い値はα＝0.05で2.011であることがわかる。α＝0.1のt値が1.677なので比例式を作って解くとp＝0.052となる。αエラーを0.05とすると，事例の場合は偶然の範囲内ということになる。

●事例2

　血糖降下剤の効果を評価するため，8人の志願者を募った。基準食をとってもらい，内服前の空腹時血糖値（FPG）と，1錠3回内服した翌朝のFPGを比較検討した。データを表3に示す^1）。

●1標本（ペア）t検定

　t検定は2群が独立していることを条件にしているので，同じ人のデータをペアで比較する時には用いることができない。その際には1標本t検定を用いる。
　1標本t検定とt検定の違いは，分子は平均値差で同じであるが，分母が異なることである。t検定は生データの標準誤差を，1標本t検定は差の標準誤差を用いる。そのため1標本t検定は分母が小さくなる。自由度は2n－2からn－1と減少するが，分母が小さい影響のほうが強いので有意差が出やすい。
　事例2では，1標本t検定を用いて，差の平均を－3.38，差の標準偏差を2.83で計算すると，

となる。自由度7（8－1＝7）のt分布表をみるとP＝0.012であり，FPGは内服前後で差があることがわかる。
　ここで誤ってt検定を用いると，差ではなく値の標準偏差11.0で計算されるため，

となり，自由度14（2×8－2＝14）のt分布表をみるとP＝0.403なので，有意差はないと間違ってしまいかねない。

●ここまでわかるとどの程度論文が読めるか？

　t検定に精通していればNew England Journal of Medicineの論文の67％は読めることがわかっている^2）。

●まとめ

■帰無仮説には治療群のほうがコントロール群よりよいという仮定は含まれていないので，治療群の有効性を言うためには両側検定が必要である。

■標本の大きさが一定であれば，αとβを　共に小さくすることはできない。有意差　を見逃さないためには，nを大きくして　βを小さくする必要がある。

■標本の分散がわからない2群間比較をす　るときにはt検定を用いる。

■同じ人のデータをペアで比べる場合には　1標本t検定を用いる。

参考文献
1）Feinstein AR: Stochastic Contrasts, In Clinical Epidemiology The Architecture of Clinical Research, Philadelphia, Saunders, 130－169, 1985.
2）Emerson JD, Colditz GA: Use of statistical analysis in the New England Journal of Medicine, In Bailar III JC, Mosteller F, ed.,Medical Uses of Statistics, 2nd ed., Boston, NEJM Books, 45－57, 1992.