医学書院

検索
HOME週刊医学界新聞 > 第2963号 2012年01月30日

第2963号 2012年1月30日


今日から使える
医療統計学講座

Lesson9
感度・特異度

新谷歩(米国ヴァンダービルト大学准教授・医療統計学)


2958号よりつづく

 臨床研究を行う際,あるいは論文等を読む際,統計学の知識を持つことは必須です。
 本連載では,統計学が敬遠される一因となっている数式をなるべく使わない形で,論文などに多用される統計,医学研究者が陥りがちなポイントとそれに対する考え方について紹介し,臨床研究分野のリテラシーの向上をめざします。


 病気の診断検査の正確度を示す感度・特異度。その解釈が厄介なことはよく知られています。今回は私の実体験を踏まえ,診断研究における解析上の注意事項を紹介します。

■感度・特異度は診断検査ツールの正確性を見るもの

 昨年の夏,私は人生で2回目となるマンモグラフィによる乳がん検診を受けました。数日後に届いた再検査を促すはがきを前に,目の前が一瞬真っ暗になりました。6歳と8歳の子どものことが真っ先に浮かび,私がいなくなったらこの子たちはどうなるのだろうと,それまでの人生で味わったことのない衝撃と不安を感じました。

 「私は統計家なのだから,データを見て落ち着かねば!」と自分を励ましながら,まずマンモグラフィのデータを探しました。診断検査ツールの正確性を表す指標として最もよく知られている感度・特異度を確認したところ,2009年に発表された乳がんサーベイランス・コンソーシアム(BCSC)のデータでは,感度は84%,特異度は92%でした1)

 「えっ! 私が乳がんである確率が84%!? いや,そうじゃなくて……」。ここでの感度とは,乳がんを持つ人がマンモグラフィで陽性と出る確率のことです()。「乳がんが確定している人が,何だってまた検査を受けるの? 検査結果はもう出ているのに。私が知りたいのは,マンモグラフィで陽性だった人が実際にがんである確率。感度・特異度は臨床現場から見ると,本末転倒してはいないだろうか!?」

 その通り,感度・特異度は診断検査ツールの正確性を見極めるために開発者や医療機関が用いる指標であって,実際の臨床現場で患者のために用いられる指標ではないのです。私が知りたかった"検査で陽性が出たときに実際にがんである確率"は,専門用語で「陽性的中度」または「検査後の病気のリスク(事後リスク)」と呼びます。

 陽性的中度は,感度・特異度と「検査前の病気のリスク(事前リスク)」を基にベイズの公式を使って計算できます。これは授業でも教えているので朝飯前。さっそく計算してみることにしました。もちろんその手は震えていたのですが……。

 私は前年にも乳がん検診を受けていたので,事前リスクは40―45歳の1年間の乳がんの発生率0.12%を使いました2)。感度,特異度を事後リスクに変換する計算は少々厄介ですが,最近では"事後確率"というiPhoneアプリも出ているようですし,Drexel大学のwebサイトでも簡単に計算できます。結果は1.25%。1000人中1人だった事前リスクが,検査陽性によって100人中1人になりました。不安はぬぐいきれませんでしたが,ひとまず胸をなで下ろしたのでした。

 これらの数字は,つまるところ確率に過ぎないので,実際に疾患があるかどうかはさらなる検査が必要ですが,一時的とは言え,患者の心理に及ぼす影響は計り知れないものがあります。医療統計を仕事に選んでよかったと,心から思いました。幸い2回目のマンモグラフィでは無事陰性でした。ちなみに陰性的中度は99.98%,検査結果が陰性であるにもかかわらず,実際にはがんである確率は1万人に2人。

 同じ検査(マンモグラフィ)で陽性であっても,本当に病気である確率は検査前の事前リスクに大きく左右されます。私が検査を受けたのは年に1度の検診であり,自覚症状があったわけではありません。ですから,事前リスクは1000分の1と,比較的小さくすみました。

 では,しこり,痛みなどの自覚症状がある場合はどうでしょうか。身体所見,自覚症状などから医師が経験的に割り出した事前リスクが50%だとします。これを先ほどのベイズの公式に当てはめると,事後リスクは91%まで上がります。同じ検査で陽性が出たとしても,診療のどの段階で検査を行ったかによって,その数字の持つ意味合いがかなり変わってくるのです。

 ここでさらに,感度・特異度の個人差について考慮してみましょう。通常感度(特異度)は実際に疾患を持つ(または持たない)人の中からランダムにデータを集めてきたときに計算された,あくまでも平均的な指標に過ぎません。ですから,診断検査ツールの正確性が疾患の重症度や患者の特性によって左右されることは考慮されていないのです。

 年齢が40代,50代と比較的若く乳腺密度が高い人ほど,マンモグラフィの感度は下がるという報告もあります3)。この論文で得られた40代および50代の女性に対する感度30%を用いて計算し直すと,先ほどの事後リスクは0.04%まで下がりました。

■診断検査ツールを検証する際のチェックポイント

 感度・特異度のほかにも,診断研究においてデータ解析を行う際に注意すべき点がいくつかあります。

感度・特異度にバイアスは生じていないか

 診断研究で必要な真の疾患の有無は,どのように確認されるのでしょうか。検査を受診した全員の疾患の有無は把握できているでしょうか。

 肺血栓塞栓症の診断におけるDダイマーの有効性を調べる研究を例にとると,本当に肺血栓塞栓症であるかどうかを調べる肺動脈造影の実施は,リスクの低い患者やDダイマーが陰性の患者には奨励されていません。そのため,研究対象者は肺動脈造影の行われた患者,つまりハイリスクの患者に偏ることになり,結果,感度・特異度にはバイアスが生じてしまいます4)

 先ほどのBCSCでは,全米のがん登録データを参照し,研究参加者全員の乳がんの有無が確認されたようです。もし,これが仮に検診のみのデータに依存し,真に乳がんかどうかを翌年の検診結果で判断していたとします。すると,リスクの低い患者は翌年検査を受診しないことも考えられ,家族歴があるなどハイリスクの患者にデータが偏るので,結果にバイアスが生じてしまうことになります。このようなバイアスを「Verification Bias(検証バイアス)」と呼び,診断研究では最も深刻なバイアスとして知られています。

 対処法としては,多重補完法などを用いて欠損値を推測する方法が有効です4)。多重補完法では,どのような患者がリファレンス検査を受けないのかといった,欠損にかかわるファクターのすべての情報を考慮に入れて,欠損値を推測した完全なデータセットをいくつか作成します。そしてそれぞれのデータごとに解析を行い,得られた複数の解析結果を平均化する統計的に高度な手法です。

■診断検査ツールの検証は,多変量回帰分析を用いて行う

 有効な診断検査ツールとなるのは,検査後の事後リスクが検査前の事前リスクと比較し,疾患のある患者ではより高く,ない患者ではより低くなる,というように有意義に変わる検査だけです。検査値だけを考慮した単変量解析は,患者の情報をまったく無視して事前リスクをゼロと見積もっているに等しく,身体所見や病歴,自覚症状などを考慮した事前リスクは無視されているので,患者を注意深く観察し,最善の診断をしようという現場での努力が反映されていません。

 例えば,それぞれの患者がある疾患を持っているかどうか,その確率を患者の主治医に検査前に見積もってもらったとします。その上で,主治医の予測した確率と検査値とで予測力を比較すると,医師の予測のほうがより正確であることも大いにあり得るのです。解析では,臨床現場で検査前に医師が知り得るすべての情報を考慮した事前リスクが,新しい検査を導入することによってどう変わるかが注目されます。ですから,解析は検査前の情報も考慮した多変量回帰分析を用いて行います。

■検査値はカットしない

 前立腺がんのスクリーニング検査である前立腺特異抗原(PSA)値のように,ほとんどの検査値は連続的な数値で表されますが,その結果はPSAの場合では「4.0 ng/mLより小さな値は陰性,大きな値は陽性」というように,カットオフ値によって2値化されています。このような2値のデータで解析を行うと,情報の損失により,解析パワーが落ちてしまいます。そのため解析では,検査値は連続変数を用い,連続的に変わる検査値が事後リスクにどのように影響するかを多変量ロジスティック解析などを用いて調べます。

Review

*検査で陽性であっても,実際に病気である確率は事前リスクに大きく左右されます。
*診断研究では,真の病気の有無を全員に確認することが不可欠です。
*解析の際には,診断に用いられる情報をすべて用いた多変量解析を用います。
*解析における検査結果はカットオフ値を用いず,実際の検査値を使用します。

つづく

註)ここでの特異度とは,乳がんでないと確定している人がマンモグラフィで陰性が出る確率を指す。

参考文献
1)http://breastscreening.cancer.gov/data/benchmarks/diagnostic/2009/tableSensSpec.html
2)http://info.cancerresearchuk.org/cancerstats/types/breast/incidence/#age
3)Mandelson MT, et al. Breast density as a predictor of mammographic detection: comparison of interval and screen-detected cancers. J Natl Cancer Inst. 2000; 92(13): 1081-7.
4)de Groot JA, et al. Verification problems in diagnostic accuracy studies: consequences and solutions. BMJ. 2011; 343: d4770. doi: 10.1136/bmj.d4770.

連載一覧