医学界新聞

連載 Evidence-Based Medicineのための

実践統計学入門

山本和利 京都大学医学部附属病院総合診療部講師

(2) 相関・回帰

●事例
 ある研究者が慢性気管支炎患者11名を6週間にわたり次の3つの指標について測定した結果,ピーク呼気流量率は喀痰中のヒスタミン濃度と負の相関があり,好中球濃度とは相関を認めなかったと報告した。報告者は最小値,最大値,平均値を示したが,そのうちの平均値を表1に抜粋した1)

●2つの関係
 2変数x,yの関係を見るとき,xとyの間に区別を設けず対等に見る見方を相関といい,xからyを見るとき回帰という。
 事例を検討するとき,図示せずにデータが表のままでは関係がはっきりしない。横軸にx,縦軸にyをとって,各データを2次元平面にプロットしてみると2つの関係がはっきりする。このような図を散布図(scattergram)と呼ぶ。

●散布図と分割表
 事例のピーク呼気流量率と喀痰中のヒスタミン濃度を散布図にプロットしてみよう。今ではコンピュータ統計ソフトにデータ入力すると,簡単に描出できる(図1)。


 統計学では2つの変数の間に直線関係に近い関係が見られたとき「相関関係がある」という。xの増加につれyも増加する場合を「正の相関関係がある」といい,xの増加につれyが減少する場合を「負の相関関係がある」という。
 2つのデータの関係をコンピュータを使わずに推測するにはどうしたらよいだろうか。そのためには,例えばx,yのそれぞれ平均値を境に,上下にグループ分けをし,それぞれの数を2×2分割表(contingency table)に書く(表2)。そうすることによって計算をしなくてもピーク呼気流量率とヒスタミン濃度とは正の相関があり,好中球とは相関がないことが表2から推測できる。

●相関係数と寄与率
 どの程度の相関の強さかを知るには相関係数(r)をみるとよい。そのためには縦軸と横軸の関係を直線で表す必要がある(y=a+bxの1次関数を求める)。実際の値yiと,y=a+bxの式上の値yiとの差を残差(e)という(図2)。このeの2乗の総和を最小にする方法を最小2乗法といい,この和である残差平方和(SE)を最小にするようなaとbをコンピュータで求めることで回帰方程式が得られる。


 以下は表1図2を見ながら読み進んでほしい。
 事例ではSE=(43.0-y12+(77.6-y22+……+(15.9-y112=1784.5となる。平均値37.0と回帰式(y=a+bx)上の値yiとの差の2乗の和を回帰平方和(SR)という。SR=(y1-37.0)2+(y2-37.0)2+……+(y11-37.0)2=1171.7となる(コンピュータはこの結果だけを表示する)。SE+SR=総平方和(ST)という関係が成り立つ。
 STのうちSRが占める割合を寄与率(r2)という。すなわち,r2=SR/(SE+SR)と表される。SEは回帰式で説明できないはみ出した部分にあたるので,SEが小さくなれば(実測値と回帰式とのずれが少なければ)r2は1に近付き,大きくなれば0に近付く。r2はx(独立変数)がy(従属変数)を決定する強弱を表していることになる。計算で得られたSE,SRを代入してr2を求めると,1171.7/(1171.7+1784.5)=0.4であり,その平方根である相関係数rは,+0.63となる。
 ピーク呼気流量率とヒスタミン濃度とは正の相関があり,その相関の強さは0.63であると言える。ピーク呼気流量率をy,ヒスタミン濃度をxとして回帰式を求めるとピーク呼気流量率=22.8+19.7×(ヒスタミン濃度)となる。

●相関関係と因果関係
 ある研究者が,低コレステロール血症は胃癌の発生率と高い相関があり,低脂血症が危険因子であると警告を発したが,結果的には癌が低コレステロール血症を引き起こしていたことが判明した2)。このように,相関があることがそのまま因果関係があることにはならない。
 また,p値が0.05以下であれば,rの絶対値にかかわらず相関があると誤解する傾向がある。rが0.5以下の場合は相関がないと考えたほうがよい。rが0.5であってもxのyへの寄与率は25%(0.52=0.25)に過ぎない。
 よく学会で,「p<0.05の有意差でxとyとの間にはr=0.3の相関を認めることから,xはyの原因の1つと考えられる」と発表している人を見かける。しかしながら,これを別の言い方に直すと,「xとyにほとんど相関関係がないことが統計的に確かめられた。あえてxのyへの寄与率を計算すると9%(0.32=0.09)としか言えない」となる。「xはyの原因の1つと考えられる」と結論できないのは明らかである。

●見かけ上の相関
 xとyに相関関係が認められても,実際には第3要素を介しての見かけ上の相関をみていることがある。たとえば,耳たぶのしわと冠動脈疾患に相関があると一時騒がれたが,耳たぶのしわも冠動脈疾患も肥満と相関があり,肥満という第3の因子を介して冠動脈疾患との相関を見ていたに過ぎないことがわかった2)
 第3の因子の影響を除く方法として,偏相関係数を求めるとよい。ピーク呼気流量率をx1,ヒスタミン濃度をx2,好中球濃度をx3にして3者の偏相関係数をコンピュータ統計ソフトで簡単に求めることができる。実際にやってみるとピーク呼気流量率とヒスタミン濃度の偏相関係数は0.61,ピーク呼気流量率と好中球濃度の偏相関係数は0.01となる。分割表(表2)から推測された「ピーク呼気流量率とヒスタミン濃度とは正の相関があり,好中球とは相関がない」と同じになる。

●重回帰分析
 y=a+bxでは独立変数xが1つであったが,複数になった場合を重回帰といい,y=a+b1x1+b2x2+……biと表現される。ピーク呼気流量率をy,ヒスタミン濃度をx1,好中球濃度をx2としてコンピュータで計算すると,ピーク呼気流量率=22.7+19.8×(ヒスタミン濃度)+0.008×(好中球濃度)という重回帰式が得られる。このときのr2は0.4で,好中球濃度を加えてもヒスタミン濃度だけの単回帰式の寄与率と差はないので,あえてy=a+b1x1+b2x2の式を求める意味はないと言える。重回帰分析については本シリーズの第8回で述べる予定である。

●ここまでわかるとどの程度論文が読めるか?
 New England Journal of Medicineの298~301巻中で単回帰式を用いた36論文のうち,21論文が単に相関係数を計算しただけであった。分割表に精通していれば同誌の論文の73%,単相関に精通していれば82%は読めることがわかっている3)

●まとめ
■各データを2次元平面にプロットした散布図をみると2つの関係がはっきりする。
■寄与率は独立変数が従属変数を決定する強弱を表している。
■相関のあることが因果関係のあることにはならない。
■相関関係が認められても,第3要素を介しての見かけ上の相関をみていることがある。


参考文献

1)
Feinstein AR:Statistical Indexes of Association, In Clinical Epidemiology The Architecture of Clinical Research, 170-190, Saunders, Philadelphia, 1985.
2)
Norman GR, Streiner DL:Simple Regression and Correlation, In Biostatistics The Bare Essentials, 100-107, Mosby, St. Louis, 1994.
3)
Emerson JD, Colditz GA:Use of statistical analysis in the New England Journal of Medicine, In Bailar III JC, Mosteller F, ed.:Medical Uses of Statistics, 2nd ed, 45-57,NEJM Books, Boston, 1992.