医学界新聞

連載

2011.07.18

今日から使える
医療統計学講座

Lesson3
サンプルサイズとパワー計算

新谷歩(米国ヴァンダービルト大学准教授・医療統計学)


2933号よりつづく

 臨床研究を行う際,あるいは論文等を読む際,統計学の知識を持つことは必須です。
 本連載では,統計学が敬遠される一因となっている数式をなるべく使わない形で,論文などに多用される統計,医学研究者が陥りがちなポイントとそれに対する考え方について紹介し,臨床研究分野のリテラシーの向上をめざします。


 研究計画の策定時に,データをどれくらいの数の被験者から集めてくればよいのか頭を悩ませたり,実験マウスを1群10匹にするのか,5匹にするのかで迷ったりしたことはないでしょうか? 

 以前本紙に寄稿した際(第2912号)に触れたように,サンプル数が多ければ多いほど解析の精度が上がり,それに伴いP値は小さくなります。極端に言えば,臨床的に意味のないどんなに小さな差でも,サンプル数を増やせばいつかは統計的には有意となります。解析の精度が高いほど科学的にはよいと言えるでしょう。

 しかし実際には,多くの被験者を安全性の確認されていない新薬の危険に不必要にさらすべきでないという倫理的な観点と,研究にかかるコストを必要以上に大きくしないという経済的な観点から,基礎研究,臨床研究を問わず米国立衛生研究所(NIH)のグラント申請時には,常に"必要最低限"のサンプル数を見積もることが要求されます。今回は,研究の際にサンプル数をどのように決定するのかを,お話ししたいと思います。

サンプル数はどのように決定するのか?

 P値とは,新薬にまったく効果がないにもかかわらず,あたかも効果があるような結果になってしまうエラーの確率のことです。このエラーが5%未満程度であれば許そうという慣習的なルールによって,P値が5%より小さければ新薬に効果があると判断されます。ただしサンプル数を研究開始前に決めずに何度も仮説検定を繰り返し,P値が5%より小さくなるまでデータを取り続けると,実はこのエラーが起きる確率は5%より高くなり,ルール違反となります(多重検定の問題点については次回詳しく説明する予定です)。

 サンプル数は通常,研究プロトコルに表記され,その定められた数に到達し研究を終了して初めて主要評価項目の解析が行われます。もちろん最近のランダム化比較試験では,研究途中で中間解析などを繰り返し行うことも多いのですが,その場合はこのエラーが大きくならないよう,それぞれの中間解析の有意水準を厳しくとるなど細かな配慮が必要とされます(中間解析についても別の回で紹介する予定です)。

 ランダム化比較試験結果のまとめ方を示した国際的なガイドラインであるCONSORT声明では,研究結果をまとめた論文にも研究計画時にどのようにサンプル数を決定したのかを記載するよう定めています(註1)。ですから,一度決められたサンプル数を容易に変更することはできません。

 研究計画を策定する際には,例えば新薬と既存薬間で血圧の平均値の差が5 mmHgであるというように,研究によって起こり得る結果を研究開始前に推測してサンプル数を計算します。推測された差が大きければ,比較的小さなサンプル数でも有意差が出ますが,差が小さければ大きなサンプル数が必要となります。

 この推測を誤り,実際よりも差が大きく出ると見積もってしまうと,サンプル数不足となって解析の精度が落ちてしまい,せっかく臨床的に意味のある差でも統計的に有意差が確認できないといったジレンマに陥ってしまうかもしれません。ですから,予測を行う際には過去の文献や試験的なパイロット研究のデータなどを基に,慎重...

この記事はログインすると全文を読むことができます。
医学書院IDをお持ちでない方は医学書院IDを取得(無料)ください。

開く

医学書院IDの登録設定により、
更新通知をメールで受け取れます。

医学界新聞公式SNS

  • Facebook