医学界新聞

対談・座談会

2018.07.02



【座談会】

臨床研究の本質を知るのはけっこう楽しい

植田 真一郎氏(琉球大学大学院医学研究科臨床薬理学講座教授)
新谷 歩氏(大阪市立大学大学院医学研究科医療統計学教室教授)
香坂 俊氏(慶應義塾大学医学部循環器内科専任講師)=司会


 最初のランダム化比較試験(RCT)が報告されて今年で70年。質の高いエビデンスの創出に今や欠かせないRCTだが,その結果を適切に解釈し診療に活かすのは容易ではない。完璧なRCTを行うことは難しく,研究デザインや結果の解釈に問題のある論文も多いからだ。

 エビデンスを適切に使い,新たに生み出すためにはどんな心掛けが必要か。臨床研究のエキスパートである植田氏,新谷氏,香坂氏の3氏が,その本質を探った。


大切なのは現場目線のクエスチョン

香坂 臨床研究の考え方がわかると,エビデンスを多面的,能動的にとらえられるようになります。私はこのことを米国での現場研修で実感しました。

 米国の標準治療を学びたいと思って留学したので,もともとは研究より診療に興味がありました。しかし,米国の臨床現場では「なぜこの治療をするのか」「本当に正しいのか」という議論が要求され,エビデンスを受け身で使うという姿勢は通用しません。これに刺激を受けて臨床研究を前向きに学び始めると,日々の診療と臨床研究が有機的につながるようになりました。

新谷 エビデンスをクリティカルに見て,自分でもつくっていこうとする姿勢に変わったのですね。私は米国で10年以上,臨床医に医療統計を教えてきて,香坂先生と同じような経験をする若い医師を数多く見てきました。もともと素晴らしい熱意を持って日々患者さんに向き合ってきた若者が,医療統計や臨床研究を学んで,さらに前のめりになっていく。そして,翼が生えたようにのびのびと臨床研究をし,頼もしい科学者となって巣立っていく。そうした姿に,私も大きな喜びを感じました。

植田 日本の若い先生たちには,現場目線のクエスチョンを大切にした研究に取り組んでほしいです。近年は新薬開発のための企業主導の臨床試験が盛んに行われ,さすがに豊富な資金で十分に整備された研究基盤があるので,患者の追跡も十分に行え,エラーや明らかなバイアスの少ない結果が得られやすいと思います。その反面,臨床研究が現場の目線とは少し離れてきているのではないかと懸念しています。

 私たち医師が研究を行う上で研究デザインやデータ管理,解析はもちろん重要ですが,それ以上に,臨床にはどんな課題があり,その課題に対して「私たちは何ができるのか」を考え,それを研究で解決しようとする姿勢が大切だと思うのです。

新谷 最近はクエスチョンではなくデータありきで,重回帰分析に手当たり次第因子を放り込んで出た有意差をもとに,「この疾患にはこういうリスク因子があるとわかった」と報告する研究をよく目にします。臨床医の先生にはこのような後付けの研究でなく,ベッドサイドを熟知しているからこそできる,こういう治療法が良いのではないかという現場ならではの「隠しレシピ」をクエスチョンにし,エビデンスにつなげてほしいです。

香坂 米国研修先では「お前は何をしたい?」「お前はどう考える?」といつも意見を強く毎回求められる環境だったので,研究でクエスチョンを出すことのハードルは高くありませんでした。一方,日本では与えられた材料をうまく使う方法を学ぶことを目的とした教育が多く,クエスチョンを出すのに慣れていないように思います。

植田 臨床研究のトレーニングとは,単に研究デザインや解析手法を学ぶことではありません。現場目線のクエスチョンを出し,いかに研究の形に落とし込むかというプロセスを身につけることなのです。教育する上ではそういった意識が必要だと思います。

バントでつないで1点を取るような研究者人生を

香坂 植田先生は著書『論文を正しく読むのはけっこう難しい――診療に活かせる解釈のキホンとピットフォール』1)の中で,RCTを頂点とする「エビデンスのピラミッド」について批判的に書かれていますね。

植田 はい。症例対照研究やコホート研究といった観察研究よりもRCTのほうが信頼できるエビデンスだというのはよく聞く話です。しかし,RCTと観察研究にはそれぞれの役割があり,研究デザイン自体に優劣があるわけではありません。

 例えば図1は新薬が治療として患者に届くまでの過程で行われるさまざまな臨床研究の意義を示したものです。治験として行われるRCTは新薬の効能(Efficacy)を安全かつ厳密に評価するための方法です。注意すべきは,選択基準や除外基準をクリアした患者だけが試験の対象になっているということです。安全に投与できそうな人だけを選んだ実験的なものであるため,結果を一般化することはできません。そこで必要とされるのが,“緩い”条件で効果(Effectiveness)を検証する,より現実的なRCTや,承認後に広い範囲の患者を対象にして行われる観察研究なのです。

図1 それぞれの研究の役割(文献1
効能を評価する治験などのRCTの後,より現実的なRCTや観察研究が新しい治療を患者に届けるためには必要である。

香坂 観察研究では比較群の背景を無作為化によりそろえられないので,それによって起こる交絡に注意する必要はありますが,恣意性のない集団を対象にするという利点が確かにありますよね。各デザインの利点,欠点を理解し,研究の目的や実現可能性に応じた落としどころを見つけることは,どんな研究をやるにしても重要なことかと思います。

新谷 確かにRCT偏重の傾向は感じます。さらに私が問題だと思うのは「介入研究だったら良い」みたいな考えがあるところです。米国に比べ日本では比較群のない単群の介入試験が非常に多いのです。何と比較するのかというと,ヒストリカルコントロールと呼ばれる過去の研究で得られた単なる数字との比較であったり。私たち統計家から見ると,同一研究内できちんと得られたコントロール群なしの研究は疫学研究とは呼ばず,意味のある結果を出せることはほとんどないと思うのですが……。

 米国では議論の俎上(そじょう)に載ることすらない,この手の研究がなぜ行われるのか。理由は,症例数計算上は単群介入試験が一番少ない症例数で済むからです。なぜかというと,単群で得られた割合を既知の値と比較する例数設計では既知の値の誤差が考慮されておらず,その結果,症例数が誤って小さく見積もられてしまいます。誤差がないということは,ヒストリカルコントロールとして使われる数字は無限大の症例数から計算されていなければ正しいとは言えません。

香坂 「とにかくRCT,介入研究を」という風潮で,臨床研究の本質が見失われている気がしますね。少ない症例数の場合,新谷先生ならどういう研究を組みますか。

新谷 統計的有意差をめざさずにフィージビリティ(実現可能性)を見るためのRCTを組みます。すぐには明確な結果が出なくても,とりあえず単施設で行ったとしても,無作為化されたコントロールのデータがあるので,次の研究を計画するのに役立つからです。何とか統計的有意差を出すために科学性のないデザインを考えるのではなく,統計的有意差まではめざせなくともその研究を今後どう発展させたいのかという出口戦略を立てることが重要です。

植田 非常に大事な視点だと思います。まずはきちんとした観察研究で「こういう介入のしどころがあるな」と考える。次に小規模なRCTでフィージビリティを見ていけば研究費も探せるかもしれない。少しずつ積み重ねていく考え方が大切です。

香坂 米国の研修の場では積み重ねるという研究態度が身につきます。私が研修を受けた環境も,まずは小さな研究でいいから「来月からやってみよう」とする土壌がありました。その上で段階を踏んで,その都度軌道修正をしながら何年もかけてエビデンスを積み重ねていくのです。医師としては目先の研究成果にとらわれるより,「人生をかけて何ができるか」を考えて地道に取り組むことが重要ではないでしょうか。

新谷 論文指導の際に私がよく言うのは,「ホームラン狙いで大振りするより,まずはバントでランナーを進めましょう」ということです。いきなりRCTを組んで失敗するより,地味な手法でもいいから研究を前進させたほうがいい。ランナー2塁の場面からバントと犠牲フライで1点取れれば,犠打2本(論文2本)が記録されるわけです。

サブグループ解析の目的は一貫性の証明

香坂 ここからは,臨床研究をする上で注意すべきピットフォールを3つ,具体的に見ていきたいと思います。まずは「サブグループ解析」です。「患者集団全体ではなく,年齢や性別などある特定の患者の結果を抽出して解析する」ことです。全体の解析でもサブグループ解析でも同じ結果が得られた場合は良いのですが,問題は結果が異なる場合の解釈ですよね。

新谷 注意すべきは,サブグループ解析では解析対象の症例数が少なくなるため,十分な検出力を得られない場合があるということです。したがって,本来は効果があるにもかかわらず,統計的には有意差なしとの結果が出ることがあります(偽陰性)。これとは逆に,全体の解析では効果がなくても,さまざまなサブグループ解析を繰り返せば,偶然「効果あり」との結果が得られることがあります(偽陽性)。

香坂 サブグループ解析の結果はどのように解釈すればよいでしょうか。

植田 サブグループ解析の目的は「どのような患者で有効か」を調べることではなく,臨床研究で得られた結果に「患者背景の多様性を越えた一貫性があるか」を検証することです。このことを意識して結果を解釈しなければなりません。

 私はサブグループ解析の結果はあくまで探索的なものととらえています。サブグループ解析で,ある特定の患者には効果ありと判断されても,それを実際の診療に活かす前には,何か病態的な裏付けがあるのか,どの試験でも同じような結果が出ているのかを確認する必要があります。

香坂 サブグループ解析が正しく実施されていない研究や,方法や結果の記述が不適切な論文は多いかと思います。NEJM誌ですら2005~06年に掲載された論文中,半数以上がサブグループ解析に関する記述が不適切とされたそうです2)

 新谷先生は,「サブグループ解析で結論を出したい」と相談を受けることも多いと思います。どういったことに注意してアドバイスしていますか。

新谷 私はサブグループ解析を行う前に,「どのサブグループで解析するかを事前に絞り込んでください」と言います。薬物動態的な理由などの事前の仮説なしに「とにかく何でもいいから手当たり次第有意差の出るサブグループを見つけてくれ」と言われても解析はしません。事前仮説なしに選ばれたサブグループは簡単に暴かれます。なぜそのサブグループを選ぶのか,データを解析する前に決めることが非常に大事です。

 ある効果について,あるサブグループでは有意差が出て,別のサブグループで有意差が出ないからといって,効果がサブグループ間で違うとはいえません。効果が違うことを示すためには,interaction(交互作用)の解析が必要です。

香坂 今の新谷先生のお話を具体例で見てみようと思います。図2は日本人脂質異常症患者におけるプラバスタチンと食事療法の比較試験(MEGA study)3)のサブグループ解析です。

図2 MEGA studyにおける性差に関するサブグループ解析(文献3より改変)(クリックで拡大)
多くのエンドポイントで女性のハザード比の信頼区間上限が1を超えているが,性差が交互作用を有するかどうかの解析では「交互作用なし」とされており,女性では無効とは言えない。しかし,絶対リスクの低下は明らかに女性で少ない(治療の効率が女性で明らかに劣ることを意味する)ため,量的な交互作用が存在すると言える。

植田 「冠動脈疾患」と「冠動脈疾患および脳血管疾患」について,女性ではハザード比の信頼区間の上限が1を超えているため,プラバスタチンは女性には効果がないとみなされるかもしれません。しかし,サブグループ解析でそのように解釈するのは誤りです。ハザード比は女性のほうが0.75,0.74と男性より大きいようですが,その違いが統計的に意味があるかどうかはこれだけではわかりません。女性の数が比較的少なく検出力が不足し,女性のみのサブグループ解析では信頼区間が広くなったものととらえるべきです。

 性差がアウトカムとinteractionを有するかを検定すると,interactionなしとの結果が得られています(異質性P値を参照)。したがって,性差によって効果が違うとは言い切れないのです。ただし,絶対的なリスク減少の程度を見ると,男女で違いが見られるという点は臨床的には注意すべきだと思います。

新谷 逆に,性差が仮にある場合でも,interactionの解析は検出力が下がるので,統計的有意差にこだわりすぎると臨床的に意味のある違いを取りこぼすことになりかねません。論文によっては,interactionの検定は,有意水準を5%よりも少し甘めに設定する場合もあります。

香坂 統計的有意差を画一的にとらえて,本来考えるべき患者さんの利益が失われるのは問題です。解析手法の特性を踏まえた解釈が大事だと思います。

近年多用される「複合エンドポイント」

香坂 続いては「エンドポイントの設定」について考えます。循環器領域の臨床研究のエンドポイントといえば従来は,「死亡」「心筋梗塞」「脳卒中」などのハードエンドポイントが中心でした。しかし,近年は「狭心症による入院」や「PCI(経皮的冠動脈形成術)」など重篤度の低いソフトエンドポイント,あるいは「主要心血管イベント」のようにいくつかのエンドポイントを組み合わせた複合エンドポイントが使用される研究も増えていますね。

植田 ソフトエンドポイントや複合エンドポイントがよく使われるようになったのは,ハードエンドポイントは発生頻度が低く,統計的有意差がつきにくいからです。しかし,ソフトエンドポイントは患者にとっての重要性(重篤度)や定義・診断の客観性が低いという問題があります。複合エンドポイントについては,同じ「心血管イベント」でも研究ごとに定義が異なる場合があり,結果の解釈には注意が必要です。

 エンドポイントの設定は目的や研究デザイン,それに加えて実現性も重要で,理想的な設定は難しい場合もあります。研究の初期には目的に見合った連続変数をエンドポイントに設定することも考慮して良いかもしれません。

新谷 複合エンドポイントを使う場合には,イベントごとのハザード比も調べて,結果を記述すべきです。複合エンドポイントとしてまとめて見た場合は有意な結果が得られていても,個別のイベントを見た場合に結果が異なる,例えば心不全については有意だけれども心筋梗塞には効果がないということもあるからです。

香坂 特に日本の循環器領域では重篤なイベントは少なく,ハードエンドポイントだけでは研究の設計が難しく,複合エンドポイントを使うのが現実的になっています。その場合には個別で見た結果と複合で見た結果が矛盾しないかどうかのディスカッションをするなど,十分な注意が必要です。

早期終了は「患者ファースト」で判断を

香坂 3つ目に考えるのは「早期終了」についてです。臨床試験が早期終了されるのにはどんな理由があるでしょうか。

植田 中間解析の結果,試験薬の有効性が明らかに認められた場合や,重大な有害事象が生じて被験者保護のために中止すべきと判断された場合,試験をこれ以上継続しても試験薬の有効性を示すことができそうにない場合,他の試験で何らかの結果が報告され現在の試験を継続する理由がなくなった場合などがあります。

新谷 「潜在的な利益よりもリスクが高いと判断される場合または明確な成果の確証が得られた場合,医師は研究を継続,変更あるいは直ちに中止すべきかを判断しなければならない」とするヘルシンキ宣言の18条に基づく判断です。

植田 しかし近年,劇的な効果が認められたことを理由に早期終了とされる研究が増加しているのが気になります。こうした状況の背景には,効果をいち早く報告して研究費を節約したいという意図が見え隠れするからです。

香坂 被験者の利益や安全を第一に考えるという原則から逸脱して,研究を実施する側の都合で早期終了が行われている可能性があるのですね。

植田 早期終了は「中間解析と同様の結果が本来の試験期間で最後まで観察を継続したときにも得られる」との前提で判断されるものですが,実際には介入による効果は変動して観察されます。中間解析では対象となるイベント数が少ないので,有意差が偶然生じるRandom highが起こり得るのです。

 さらに,早期終了では長期の効果や副作用の評価が不十分になります。早期終了を判断する際には,中間解析の結果の過大評価に気を付けなければなりません。

新谷 米国では,「いつ中間解析をして,こういう結果の場合には終了する」ということを研究開始前に定めるよう求められます。中間解析のプランニングの際に私が気を付けていたのは,安全性に問題がある場合にはもちろん中止すべきですが,有効性を理由にした早期終了はなるべく行わないよう条件を厳しくすることです。また,計画通りに研究が進んでいないなど研究の質に問題がある場合にも潔く中止や軌道修正の判断をするようにしていました。

香坂 日本では,エンドポイントの設計や検出力の計算が甘く,症例数が集まる目途がつかないのにそのまま続けてしまう研究もけっこうあります。

植田 有利な結果になるように途中でデザインをコロコロ変えるのは良くないですが,議論の上できちんと手続きを踏んで,inclusion criteriaやexclusion criteriaを少し甘くするなどの見直しはあっても良いと思います。無意味な研究を続けることは被験者を不要なリスクにさらすことにもなってしまいます。

香坂 被験者や将来の患者さんの安全や利益を守るという臨床研究の原則にいま一度立ち返る必要があるかと思います。

臨床研究「われらの信条」

香坂 最後に,お二人にとって臨床研究とはどんなものでしょうか。

植田 やや誤解を招く言葉かもしれませんが,「診療と研究はそんなに違わない」と思います。研究はつまるところ丁寧な診療という側面もあります。今日出会った患者さん全員に100%の確信を持った診療ができたわけでなく,何かしら疑問に思ったところがあるはずです。その疑問を放っておかないのが研究です。問題を一つ解決すると,新たな問題が必ず出てくる。それを諦めずにやっていれば,研究者としても,臨床医としてもかなりのスキルが身につくと思います。そして一つの研究で全てを解決しようとせず,一つずつ研究を積み重ねていくことも大切です。もちろん診療と研究の実施は厳密に分けなければなりませんが,研究の根本は診療にあると思います。

新谷 臨床研究をして国際的なジャーナルに発表すれば,現場の「隠しレシピ」が全世界で使われるようになります。会ったことがない患者さんも,それで救われるかもしれない。そういう素晴らしいことに携わっているんだと考えるだけでワクワクします。

香坂 作家が小説を書くモチベーションにある意味近いですよね。現場で診療をしていると,患者さんと1対1の関係になりがちです。臨床研究の考え方を身につければ,自分のアイディアを共有し,次世代に残すチャンスが得られます。それは医師としての生きがいをまた一つ増やすことにもなると思います。

(了)

参考文献
1)植田真一郎.論文を正しく読むのはけっこう難しい――診療に活かせる解釈のキホンとピットフォール.医学書院;2018.
2)N Engl J Med. 2007[PMID:18032770]
3)Circulation. 2008[PMID:18172039]


うえだ・しんいちろう氏
1985年横浜市大医学部卒。同大病院,市中病院で研修後,91年より5年間日本臨床薬理学会海外派遣研究員として英グラスゴー大内科薬物療法学講座留学,96年横浜市大第二内科助手,2001年より現職。著書に『論文を正しく読むのはけっこう難しい――診療に活かせる解釈のキホンとピットフォール』(医学書院)。

しんたに・あゆみ氏
1991年奈良女子大理学部数学科卒。96年米イェール大公衆衛生学部医療統計学修士号,2000年同博士号取得。同年米国退役軍人病院臨床研究総合センターなどを経て,01年から13年間米ヴァンダービルト大で生物統計家として勤務。14年阪大大学院医学系研究科臨床統計疫学寄附講座教授,16年より現職。著書に『今日から使える医療統計』(医学書院)。

こうさか・しゅん氏
1997年慶大医学部卒。99年より米コロンビア大や米ベイラー大での研修とスタッフ・ドクターを経て2008年帰国。12年より現職。卒前・卒後教育に従事する傍ら,研究ではアウトカムリサーチを専門とし,レジストリデータを基に医療評価を行う。12年医療科学系循環器コースの大学院を創設し,循環器領域の臨床研究の体系的構築にも取り組む。著書に『もしも心電図が小学校の必修科目だったら』(医学書院)。

開く

医学書院IDの登録設定により、
更新通知をメールで受け取れます。

医学界新聞公式SNS

  • Facebook