医学書院

検索
HOME週刊医学界新聞 > 第3270号 2018年04月23日



第3270号 2018年4月23日


【FAQ】

患者や医療者のFAQ(Frequently Asked Questions;頻繁に尋ねられる質問)に,その領域のエキスパートが答えます。

今回のテーマ
多変量解析,“統計ソフト任せ”で大丈夫?

【今回の回答者】中山 和弘(聖路加国際大学大学院看護学研究科 看護情報学分野教授)


 修士・博士の論文指導・審査にかかわって30年ほどになります。その間によく出くわした問題は,研究目的が曖昧でも,何となく関連のありそうな質問項目を集めて調査し,市販のマニュアル本の通りに変数を入れれば,統計ソフトが関連のある変数を何とか見つけてくれて論文が書けるという“甘い考え”でした。

 今やほとんどの量的研究で使われる多変量解析は,3つ以上の変数の関連を同時に見る方法ですが,事前に分析の枠組みが明確でないと,選ぶ変数の組み合わせによって結果がその都度変化するという堂々巡りに陥ります。それを予防するためには,多変量解析が一体何をしているのか,そのしくみを知る必要があります。


■FAQ1

収集したデータ(変数)を基に統計ソフトで多変量分析を行いました。結果からどのように新しい知見を読み取ればよいでしょうか。

 多変量解析の基本である重回帰分析のしくみを見てみましょう。例えば,「訪問看護師の持つ専門的能力」を目的変数(因果関係を明らかにする場合に,原因と結果のうち,結果を表す変数)として,「経験年数」と「研修の受講経験」を説明変数(因果関係で原因を表す変数)とします。図1は,専門的能力の高低が経験年数と研修経験でどれくらい説明できるのかを,円の重なりで表したベン図と呼ばれるものです。

図1 変数の関連を表すベン図

 各説明変数独自の関連の大きさを示す回帰係数は,各説明変数が独自に重なっている部分(図1の網掛け)の面積の大きさに比例します。どちらの回帰係数も有意な場合は,単に両方関連があったと報告される場合が多いように思いますが,この結果から見て,もし今後,研修機会があったとき,経験年数の長い看護師は参加すべきか否かという疑問にも答えられないでしょうか。

 図1の「専門的能力」の円の中を見ると,これまでの研修経験は,経験年数と重なっている部分を取り除いても(コントロールしても)独自に重なっている部分があります(図1の①)。研修には,経験年数だけでは身につかない内容があったということで,ベテランでも研修に行くべきだとわかります。

 また,「専門的能力」の円の中では,研修経験と重なっている部分を取り除いても経験年数と独自に重なっている部分があります(図1の②)。これは,これまでの研修では,経験年数を経ないと培えないものが抜け落ちていたという意味で,研修の改善にはベテランの技を発見して取り入れる工夫が必要なことを示しています。

Answer…多変量解析は,単に説明変数の関連の大きさを競争させるものではありません。他の説明変数との関連を取り除いてもなお,独自の関連を持っているかに着目して知見を読み取りましょう。

■FAQ2

たくさんの種類の解析手法があって,どれを選べばよいかわかりません。

 多変量解析を用いる目的は大きく2つあります。1つは,目的変数を精度よく予測できる2つ以上の説明変数の組み合わせを示すことです。そのとき,目的変数と説明変数がそれぞれ量的データ(数字で表す意味がある,例:体重,血圧)なのか質的データ(数字で表す意味がない,例:性別,疾患名)なのか,さらに日数などの時間のデータがあるかどうかで手法が変わります()。

 予測をする多変量解析の種類(『看護学のための多変量解析入門』(医学書院)より改変)(クリックで拡大)

 多変量解析を用いるもう1つの目的は,目的変数や説明変数の測定に用いる尺度の信頼性(偶然の誤差が少ないこと)と妥当性(測りたい概念が測れていること)を高める測定項目の組み合わせを示すことです。そのときは,測定項目の背景にある共通の因子を明らかにする因子分析が使われます。さらに,因子分析と重回帰分析を同時に行うことができる構造方程式モデリング(共分散構造分析)では,測定の誤差を取り除いて真の値に近い値で計算することで関連が弱くなるのを防いだり,変数間に直接関連があるのか第3の変数を介して間接的な関連があるのかといった全体の構造をモデルとして明らかにしたり,その作成したモデルが測定したデータと適合しているかを確認したりできます。

Answer…予測のための多変量解析では,目的変数と説明変数が量的なのか質的なのか,時間の変数が含まれるかどうかを判断材料として選びます。測定尺度の信頼性と妥当性を高めるためには因子分析,全体の構造を見るためには構造方程式モデリングが使われます。

■FAQ3

頑張ってたくさんのデータ(変数)を集めましたが,変数が多すぎてうまく結果がでません。研究者の判断で絞り込んでもよいものでしょうか。

 まず必要なものは,変数の間に矢印を引いた分析の枠組みです。例えば,図2のような,「患者のQOLのためには医学的ケアだけでなく看護学的ケアが必要である」「さらに看護学的ケアは医学的ケアを経由(媒介変数と言います)しても貢献する」というような言いたいことやストーリーに基づくものです。それには,先行研究や理論を十分に知る必要があります。その上で,最も関連を明らかにしたい説明変数や,関連を取り除きたい他の変数や媒介変数などを明確にします。

図2 分析の枠組み
看護学的ケアは直接および医学的ケアを経由して患者のQOLを高めるというストーリー

 よくある失敗は,いろいろな角度から知りたいからと似たような変数をたくさん測定し,全部説明変数としたことで,互いにあまりに関連を取り除き合ってしまって独自の関連がほとんど見られなくなるものです。例えば,血糖値を目的変数としてBMIと腹囲と体脂肪率と本人の肥満度の自己評価を説明変数とした場合,何を知りたいのかが疑問です。全ての説明変数は,他の説明変数の独自の関連を見るためのコントロールに使われるので,説明変数間で内容の差が小さくなりすぎると意味を見いだせなくなってしまいます。

 統計的な方法で変数選択をしようと一対一の関連では有意でない変数を見つけても,それらは多変量解析を行うと有意になったり,他の説明変数の回帰係数を変化させたりする変数の可能性があります(抑制変数と言います)。また,ある条件の場合にだけ(調整変数と言います)関連が見られる場合もあります(交互作用と言います)。例えば,ストレスが低い場合は情緒的なサポートとメンタルヘルスとの関連が見られないのに対して,ストレスが高い場合は情緒的なサポートがメンタルヘルスの悪化を抑える効果があるというような場合です。

 さらに,変数を自動的に選択できるステップワイズ法にもさまざまなリスクがあります。初期設定次第で選ばれる変数が変わりますし,わずかな関連の大きさの違いで重要な説明変数が削除されることがあります。せっかく,患者へのインタビューなどから発見されたオリジナリティの高い大切な変数が,単相関では十分に関連があるにもかかわらず,他の凡庸な変数との“競争”に僅差で負けて無残にも消え去っていることがあるのです。あまりに残念に思うので,これを“ステップワイズの悲劇”と名付けています。

 同様に,因子分析を用いた論文の中には,丁寧なインタビューによる患者や家族の貴重な語りから作られた項目が大幅に削除されている時があります。しかも,残っている項目がありきたりで,明らかに新しい概念の発見につながりそうな項目が無くなっているのは“因子分析の悲劇”と呼べるものです。これは,因子数を決定するときに,スクリープロットなどの統計的な方法で必要以上に因子数を減らしたり,まだ因子数を決めていない時点で因子負荷量0.4未満は削除するといった機械的な作業をしたりすることで起こります。

Answer…今一度,関連する先行研究や理論を十分に調べ,オリジナルの大切な変数は何かをよく考えてから,選ぶようにしましょう。

■もう一言

 ベン図による説明はいかがでしたか。これを使った講義や講演が好評なので,書籍『看護学のための多変量解析入門』では,ベン図で重回帰分析をよく理解してから,その延長線上にある幅広い多変量解析のしくみについて解説しています。最近よく使われる,欠損値の代入,マルチレベル分析,構造方程式モデリング(確証的因子分析,パネル[時系列]データによる因果の分析など多様な応用例)も入れました。看護学を含めて多分野の教員から「目からうろこ」「日本の教科書のかゆい所をかいてくれた」と言ってもらっています。ぜひ院生と教員でご一緒にお試しください。


なかやま・かずひろ
1985年東大医学部保健学科卒。90年同大大学院医学系研究科博士課程修了(保健学)。愛知県立看護大講師,助教授などを経て,2001年より聖路加看護大(現・聖路加国際大)助教授。04年より現職。聖路加国際大大学院での講義を基にした『看護学のための多変量解析入門』(医学書院)を18年1月に刊行。