医学界新聞

連載

2019.11.04



臨床研究の実践知

臨床現場で得た洞察や直感をどう検証すればよいか。臨床研究の実践知を,生物統計家と共に実例ベースで紹介します。JORTCの活動概要や臨床研究検討会議の開催予定などは,JORTCのウェブサイトFacebookを参照してください。

[第8回]サンプルサイズの設計

小山田 隼佑(JORTCデータセンター統計部門 部門長)


前回よりつづく

 倫理性・効率性・科学性の観点から,必要なClarityを保証する最低限のサンプルサイズ(研究対象者の数)で臨床研究を実施するべきことを,第2回(3320号)にお伝えしました。

 今回はJORTCが支援した研究1)を題材に,サンプルサイズの設計にどのような情報が必要で,その情報をどう検討したかを紹介します。サンプルサイズ設計には,大きく分けて精度ベースの方法と検出力ベースの方法があります。本稿では本研究でも採用した検出力ベースの方法について解説します。

 本研究は,がん治療中に発症した口腔粘膜炎による疼痛をもつ患者に対し,インドメタシンスプレー製剤(Indomethacin Oral Spray;IOS)の疼痛軽減効果を探索的に検討するために計画された二重盲検プラセボ対照ランダム化比較試験です。

 IOSに関するいくつかの先行研究で,投与開始15分後から鎮痛効果が出現し,4時間程度の持続を認めることが報告されていることから,初回投与後4時間は追加投与を許容しないこととし,初回投与前(0分)~初回投与後4時間(240分)までの複数時点における痛みを,患者報告アウトカムの一種であるBrief Pain Inventory(BPI,0:全く痛くない~10:これ以上の痛みは考えられない,の11段階)のitem 6「今感じている痛み」で評価しています。このように数値で評点をつける尺度のことを総称してNumerical Rating Scale(NRS)と呼びます。

必要な情報を整理しよう

 検出力ベースのサンプルサイズ設計にはまず,研究の目的に直結する主要評価項目と,それに対する主な解析方法を決定する必要があります。本研究では,「初回投与前(0分)と初回投与後30分におけるBPI-item 6の差(変化量)」を主要評価項目に設定し,解析方法としては「(各群の変化量の平均値に対する)2標本t検定(両側検定)」を採用しました。

 主要評価項目と主な解析方法が決まれば,後はの通り,「検出すべき差(Δ)」「第1種の過誤(α)」「第2種の過誤(β)」「その他,必要な情報(解析方法によって異なる;今回はバラつきの大きさσのみ)」の4つを定めれば,必要なサンプルサイズは計算式に基づき自動的に定まります2)。Δは先ほど設定した「初回投与前後のBPI-item 6の差(変化量)」で,σは「初回投与前後のBPI-item 6の差(変化量)における,群間で共通の標準偏差」となります。αは有意水準とも呼ばれ,1-βである確率は検出力(power)と言います。

 検出力ベースのサンプルサイズ設計(文献2のp.98より改変)

 これらの情報の大小がサンプルサイズにどのような影響を与えるかをまとめたのがです。

 サンプルサイズ設計に必要な情報

先行研究を基にしっかり議論を

 有意水準と検出力の大きさは研究テーマの性質や先行研究,自らの考え方に基づいて設定することになります。治療効果の検証を目的とした試験では通常,有意水準は5%以下,検出力は80~90%に設定することが多いです。本研究は探索的な試験ではありますが,有意水準を両側5%,検出力を80%と,検証的な試験と同程度に設定しています。残りの情報(Δ,σ)は基本的に先行研究などからきちんと見積もる必要があります。

 先行研究(本研究の予備研究として行われたIOSの前後比較試験)では患者の痛みの強度を測る際,長さ10 cm(=100 mm)の黒い線(左端が「痛みなし」,右端が「想像できる最大の痛み」)を患者さんに見せて,現在の痛みがどの程度かを指し示してもらう,Visual Analogue Scale(VAS)という,本研究で用いるNRSとは異なる尺度を使用していました。しかし,痛みの評価方法としてNRSはVASとの高い相関が報告されていることから,VASの10 mmの大きさは大体NRSの1の大きさと等しいと見なすことにします。

 先行研究の結果を平均値±標準偏差で表すと,投与前の疼痛のVASが60.6±26.37 mm,投与後の疼痛のVASが24.7±20.58 mmでした。つまり投与前後の変化量としては,VASで約36 mm,NRSで約3.6点の減少が見られたということになりますので,この結果を本研究の設定にどのように反映させるかを考える必要があります。

 先行研究は盲検化のなされていない前後比較試験であるため,評価バイアス等の混入によって過大評価となっていることが想定されます。それに対して本研究は二重盲検プラセボ対照であるため,IOS群における変化量は,先行研究の変化量よりも小さな値として得られると想像できますし,そこにプラセボ群のプラセボ効果による疼痛減少も考えた上でΔを決定する必要があります。本研究では,他の類似の研究結果も参考に,IOS群・プラセボ群における変化量をそれぞれ3点,1点と見積り,Δ=3-1=2点と設定しました。

 なおΔを決定する際,「得られた差が,臨床的に意義のある差なのか」という観点,すなわち臨床的に意義のある最小の差(Minimal Clinically Important Difference;MCID)も検討するのが理想ですが,本研究の計画段階では口腔内の疼痛に関するMCIDの知見が無かったため,あくまで「実際に観察されるであろう差」をベースに設定しています。

脱落や集積可能な対象者数も要検討

 残りのσも先行研究の結果を参考に2.5点と見積もり,これで必要な情報が全てそろいました。ただ,これはあくまで「登録された患者全員から主要評価項目のデータが入手できた場合」であり,実際の試験では患者の途中脱落,主要評価項目のデータの欠測などが考えられます。脱落や欠測の理由次第では,単純に当該患者を解析から除外することが適切でない場合もありますが(本連載で今後扱う予定),仮に除外した場合にはその数だけ解析可能なデータが減りますので,解析する際の検出力が低下してしまいます。対策として,計画段階であらかじめ一定の脱落等の可能性を考慮し,サンプルサイズに上乗せしておくことが考えられます。本研究でも脱落等を考慮した結果として,最終的に各群30例,合計60例を必要サンプルサイズとして決定しました。

 もう一点重要なのが,実際に集積可能な最大の対象者数を検討することです。いざ研究を開始してみたものの,試験の参加候補者が思いのほか見当たらず,登録期間内に登録を完遂できない事態となることは可能な限り避けるべきです。研究の選択基準を満たす患者が潜在的に何人いるかについて,研究参加施設へのアンケートなどで事前に調査する必要があります。検討の結果,本研究の選択基準を満たす患者は年間40人程度と見込まれ,2年間の登録期間にて目標の60例を満たすことは可能と考えられました。

今回のポイント

・検出力ベースでサンプルサイズを設計するためには,検出すべき差(Δ),第1種の過誤(α),第2種の過誤(β),バラつきの大きさ(σ)などの情報が必要であり,特にΔやσは先行研究などから見積もる必要がある。
・サンプルサイズは,倫理性・効率性・科学性の観点に加え,試験途中の脱落や実際に集積可能な最大の対象者数なども加味して設計する必要がある。

つづく

:詳細は,山口拓洋著『サンプルサイズの設計』(健康医療評価研究機構,2010)などの成書をご参照ください。

謝辞:本研究の研究代表者である筑波大病院緩和ケアセンターの長岡広香氏に資料提供と助言をいただきました。感謝の意を表します。

参考文献
1)長岡広香,他.がん治療中の口腔粘膜炎に対するインドメタシンスプレー製剤の疼痛軽減効果の研究.第56回日本癌治療学会学術集会抄録;2018.
2)浜田知久馬.新版 学会・論文発表のための統計学.真興交易(株)医書出版部;2012.

開く

医学書院IDの登録設定により、
更新通知をメールで受け取れます。

医学界新聞公式SNS

  • Facebook