医学界新聞

医学界新聞プラス

『数式不要! はめ込み統計学 EZRでできる保健医療統計これだけ』より

連載 加藤丈夫

2021.10.01

 

ビッグテータの考え方が広まり,近年ますます重要視されている統計学の知識。しかし,「統計学って複雑な数式を駆使するイメージがあって難しそう」と苦手意識を抱く方も多いのではないでしょうか? この度上梓された『数式不要! はめ込み統計学――EZRでできる保健医療統計これだけ』では数式を使わず,保健医療の現場で使う実践的な統計手法がわかりやすく解説されています。無料統計ソフト「EZR」を用いた解析の手法の一端を全4回にわたり覗いてみましょう。

誰でも統計を活用できるチャンスがある

医師,歯科医師,看護師,保健師,薬剤師,栄養士,理学療法士,臨床検査技師などの保健医療職を養成する学部や学科では,必ず,統計学の授業があります。それは,医療には統計学が必須だからです。そして,統計学は数学から派生した学問ですので,統計学の“原理”を理解するには,数学が必須です。大学は学問をするところですから,まず初めに“原理”を理解し,その原理に基づいて“実践”することが理想的であることに異を唱える人はいないと思います。従って,大学の統計学の授業に「難しい数式」が出てくることは,ある意味,避けられないことです。

“原理”は理解していなくても“実践”はできる

一方,現実の世界に目を向けてみると,“原理”は理解していなくても,上手に“実践”できることは数多あります。

身近な例を挙げれば,目の前にある「電卓」がその好例です。私には,電卓が加減乗除を行い,平方根まで計算できる“原理”が全く分かりません。しかし,電卓を上手に活用しています。他には「パソコン」もその類と思います。

信頼性の高い統計ソフトが容易に入手できる時代

「“原理”を理解していなければ,それを活用してはいけないか?」。明らかに「No!」です。一昔前は,統計解析を手計算でやっていました。その時代には,統計学の数式を理解していないと統計解析を実践できませんでした。

現在は,1人1台パソコンを所有し,信頼性の高い統計ソフトが誰でも容易に入手できます。しかも無料で入手可能です(後程,紹介します)。そのような時代には,数学が不得意な人でも,自分の仕事に統計を活用できるチャンスがあってもよいのではないかと思います

はじめに」で,「学生時代に,難しい数式が出てきた途端,授業が別世界のように感じられ,それ以降,全く理解できなくなった」と訴える保健師,薬剤師,栄養士などの保健医療職の方が多いと述べました。これは私見ですが,授業を行う統計学の専門家の中には,保健医療のリアルワールドを理解していない人が少なくないように思います。彼らは基本的には数学者ですので,原理の解説を重視することは無理もないと思います。

しかし,保健医療の分野においては,統計学は現実の問題を客観的に理解したり,解決するための一つの手段です。現場で「何が問題なのか」「何を明らかにしたいのか」「何を解決したいのか」という問題意識があって,初めて統計手法は生かされます。

今後は,むしろ,数学嫌いの保健医療職の方が統計手法を身に付け,現場の問題点を認識し,現場から出てきた生のデータを統計解析し,保健医療分野の重要な知見をたくさん発信する時代なのではないかと考えています。

統計解析で何が分かるの?

それでは,統計解析ができると何が分かるのでしょうか?

例えば,住民を「塩分摂取量の多い」群と「塩分摂取量の少ない」群の2群に分け,各群の「高血圧の有無」を調査し,統計解析をすると,「2群間で高血圧の有病率に(偶然ではなく)有意な差があるかどうか」が分かります。つまり,2群間(あるいは3群間以上)の「検査値」や「有病率」などに有意な差があるかどうかが分かります。

(偶然では起こりにくい)有意な差があるかどうかの「判断の指標」として重要なのがp値です。本書の読者は統計解析の初心者だと思いますので,本書では「2群間に違いがあるかどうか」の解析を中心に解説します。これがマスターできれば,3群間以上の解析は簡単に習得できるからです。

まず初めに「p値の意味」を学び,次に「変数の種類」を学んでいただきます。「p値の意味」は,統計解析の結果を解釈するのに必要な知識であり,「変数の種類」の知識は,検定法を選択(多数の検定法の中から適切な検定法を選択)するのに必要だからです。

p値って何?

前述のように,統計解析の主要な目的の一つは「p値を算出する」ことと言っても過言ではありません(算出といっても,実際に人が計算するわけではなく,パソコンが自動的に算出してくれます)。統計解析を行っている人は,算出されたp値が大きい値か小さい値かにより一喜一憂します。まず,p値の意味を知りましょう。

ほとんど全ての統計の教科書では,p 値を説明するために,帰無仮説と対立仮説の説明から始めるのですが,ここでは帰無仮説と対立仮説という用語を使用せずにp値を説明します。

 ポイント 
  • ①p値は,偶然によってデータに差が出る確率

  • ②p値は,0〜1までの値を取る
  •  
  • ③p値が小さければ,偶然では起こりそうもない差    
  •  ⇒「偶然ではなく,本当に差がある」と判断
  •  
  • ④p値が大きければ,偶然でも起こりうる差    
  •  ⇒本当に差があるのかないのか分からない(判断は保留になります)
  •  
    • ⑤慣習として,p値が0.05(5%)未満(p<0.05)のとき,p値は十分に小さいと見なされ,「偶然ではなく,本当に差がある」(有意差がある)と判断する

 

まず,下の練習問題1-1を見ながら理解していきましょう。

練習問題1-1

A地区の40歳以上の男性の腹囲の平均値は86 cm,一方,B地区の40歳以上の男性の腹囲の平均値は85 cmでした(図1-1)。この2群のデータを統計解析して,p値「0.04」という数値が得られました(実際の解析方法については後で学びます)。

この2群間には差があると言えますか?

041.jpg
図1-1 A地区とB地区の40歳以上男性の平均腹囲[画像はクリックで拡大]

    練習問題1-1の答え

    この場合,A地区男性の腹囲平均値は86 cm,B地区は85 cmと1 cmの差があります。p値は,この差が偶然に起こる確率であり,一般に,「0.05」未満(p<0.05)であれば,偶然に起こったとは見なさず,「有意差がある」と言ってよいことになっています(世界的なコンセンサス)。この例のp値「0.04」,つまり4%は,十分に小さいと見なされ,両者の差が偶然に起こったとは判断せず,両群間には真に差があると判断します。

    この統計解析の結果を示す場合には,「A地区の男性は,B地区の男性に比べて,腹囲の平均値は有意に大きい(p=0.04)」と記載します。このとき,必ずp値も記載しましょう。もし,p値が「0.001」などとさらに低ければ,結論の確からしさがさらに高くなります。

ひとこと p<0.05に理論的根拠があるわけではない

p<0.05に理論的根拠があるわけではないので,論文やレポートでは,必ず「本研究では,p<0.05を統計学的に有意差ありとする」と一言加えるのが慣習(作法)です。

ひとこと 「有意差がある」は必ずしも「意味のある重要な差異」ではない

「有意差がある」は,必ずしも「意味のある重要な差異」を意味するものではありません(図1-2)。

041.jpg
図1-2 「統計学的に有意差あり」と「(人の健康にとって)意味のある違いがある」は,必ずしも同じではない[画像はクリックで拡大]

例えば,A地区の40歳以上の女性の血清総コレステロール値の平均値は210 mg/dL,B地区では220 mg/dLであり,統計解析の結果,p値は0.03であったとします。この場合,「B地区の女性は,A地区の女性に比べ,血清総コレステロール値の平均値は有意に高い(p=0.03)(=血清総コレステロール値の平均値は,両群間で有意差がある)」と記載しますが,平均値210 mg/dLと220 mg/dLの違いが,ヒトの健康にとって意味のある違いであるか否かは不明です。

従って,「統計学的に有意な差(有意差)」があった場合には,医学,生物学,社会医学や一般常識などの知識を総動員して,広い視野から「(ヒトの健康にとって)意味のある差」かどうかを検討し評価する必要があります。一方,統計学的に有意差がなければ,それ以上のことは何も言えません。

ひとこと 「有意差がない」=「違いがない」ではない

最近は少なくなりましたが,学会発表で「統計解析の結果,p値が0.05以上であったので,A群とB群には違いがない」と結論する演題を聞くことがあります。

p<0.05を統計学的に有意差ありと定義した場合,p≧0.05のときは,「A群とB群に有意差はない」と言えますが,「A群とB群に違いがない」や「A群とB群は同じだ」とは言えません(つまり,A群とB群が同じか違うかは不明⇒判断は保留)。

ひとこと p値は定量的な差の大きさを示すものではない

A群とB群の検査値(例えば,血圧の測定値)や有病率(例えば,糖尿病者の割合)を比較した場合,「検査値や有病率の差が大きく」てもp値が小さいとは限りません。逆に,多数例を解析したものではA群とB群の差が偶然に起こる確率が小さくなり,「検査値や有病率の差が小さく」ても「p値が小さく」なることがあります(後で学んでいきます)。

つまり,p値が小さければ,「A群とB群に差がある」との結論の確からしさが高くなりますが,群間の定量的な差を表すものではありません。

 

第2回へつづく)

04582_数式不要!はめ込み統計学_カバー_帯有.jpg
 

無料統計ソフトEZRを使って始める保健医療統計!
名義変数の解析から多変量解析まで

<内容紹介>保健医療の現場で実際に統計を「使える」ことを目指し,数式を使用せずに解説した実用統計書。運動習慣と糖尿病,喫煙と肺がんなどを題材にした練習問題を基に,無料統計ソフトEZRを操作しながら理解できる。名義変数の解析から,連続変数の解析,傾向・相関の解析,多変量解析,生存期間の比較までを解説。これから統計を使いたい方に最適の一冊。 

目次はこちらから