医学書院

検索
HOME週刊医学界新聞 > 第3345号 2019年11月04日



第3345号 2019年11月4日


【対談】

データサイエンティストが描くAI研究の未来像

浅井 義之氏(山口大学大学院医学系研究科システムバイオインフォマティクス講座教授)
川上 英良氏(千葉大学大学院医学研究院人工知能(AI)医学教授)


 2012年6月,Googleが発表した論文(通称キャットペーパー)で深層学習に注目が集まり,人工知能(AI)の有用性が再度脚光を浴びた。医学分野でも深層学習を利用した病理診断や内視鏡診断,創薬への応用が進み,画像解析,ゲノム解析の2大領域では医師の能力を凌駕する研究も現れ始めた。しかし,これら2大領域以外では深層学習を利用できるほどのビッグデータを集積しづらいのが現状だ。近年,こうした領域以外でAIを活用する新手法として注目されるのが,ディープフェノタイプに基づくデータ駆動型研究(以下,ディープフェノタイプ研究)である。システムバイオロジーの考えをもとに,バイオマーカーや生活環境などのあらゆるデータを統合的にAIで解析し,疾患の発生・進行予測に活用する。

 本紙では,医学部の中にAIセンターを立ち上げ,ディープフェノタイプ研究の推進,および医学教育に取り組むデータサイエンティストの浅井氏,川上氏の対談を通じて,AI研究の新たな潮流を紹介する。


浅井 ここ数年のAIブームにより,「こんなデータがあるけど何かできますか」と,医療データを私の研究室に持ち込んで来られる医師が増えました。これはある意味AIブームのいい副作用だととらえています。解析の手法としてAIが選択肢に入っている証拠で,ブームがなければ従来通りの統計解析に終始していたでしょう。

川上 そうですね。同じ研究領域で先を越されてしまった場合,それを超えるような知見が出ない限りは,解析データはこれまで死蔵されてきました。しかし,AI研究が盛んな今,新たな知見を生み出す可能性のあるデータを死蔵させるのは大きな損失です。

浅井 一方で,臨床医が死蔵データのAI応用を考えた際,現場での活用法がイメージできているのかは重要な課題です。現状は,AI研究の主流である深層学習を用いた画像解析やゲノム解析の領域であれば,研究に生かしやすい有用なデータが医師から持ち込まれるのですが,それ以外の研究分野に関しては,冒頭の依頼のように「AIで何ができるか」の具体的なイメージがないまま医師が相談に来られることはまだまだ多いです。

川上 同感です。けれどもその貴重なデータをどう生かすかがわれわれデータサイエンティストの使命でもあります。そこで近年,医用画像,ゲノム情報以外のデータに対応しようと頭角を現してきたのが,変動するバイオマーカーに対してAIを活用し,予防医療への応用をめざすディープフェノタイプ研究です。

既存の分類の基準を疑う

浅井 医用画像やゲノム情報は,ある一時点をとらえたデータのため,腫瘍の有無や良悪性の判定などは比較的行いやすく,深層学習に最も向いたタスク設定です。一方で,ディープフェノタイプ研究が標的とするバイオマーカーは,時系列によって大きく変動するため,深層学習の活用に向きません。当センターでもシステム医学の観点からこの研究に取り組んでいますが,最近,川上先生は血液検査データをもとにAIを応用した興味深い研究成果を出されましたね。

川上 はい。2010~17年の間に,慈恵医大産婦人科で治療された334人の悪性卵巣腫瘍患者と101人の良性卵巣腫瘍患者の診断時年齢および術前血液検査32項目のデータに基づいて,術前に腫瘍の良悪性の判定や進行期,組織型などの特性予測に取り組みました(Clin Cancer Res. 2019[PMID:30979733])。

浅井 なぜ卵巣腫瘍患者に注目したのでしょう。

川上 卵巣がんの治療は外科手術が第一選択となっていますが,化学療法への反応性も比較的良いため,術後に化学療法を行うことがほとんどです。一方で,進行期や組織型によって化学療法への反応性は大きく異なります。最近は有効な抗がん薬も登場してきたので,何とか術前に特性を予測して治療戦略を立てられないかと思い,機械学習を導入しました。

浅井 なるほど。研究の詳細を教えてください。

川上 図1に示すように機械学習の中にもさまざまな種類があります。今回はその一つであるランダムフォレスト を利用しました。

図1 人工知能のさまざまな手法

 研究開始に先立ち,まずは術前血液検査データをもとに,良悪性の判定を予測したところ,AUC=0.968()と高精度に予測することができました。ここまでは割と一般的な教師あり学習です。しかし,同様の手法を進行期予測に適用すると,AUC=0.760までしか上がらず,組織型の予測においても,組織型によって大きな予測差が出てしまいました。

浅井 進行期と組織型がうまく判定できなかったのは,単にアルゴリズムやデータの質の問題だったのでしょうか。

川上 最初はそう考えていました。ですが,組織型分類は別として,本来,進行期の分類は,薬剤の効果や5年生存率など個人の予後につながる因子を踏まえて分けているにすぎず,分類が絶対的ではないはずです。そのため,既存の分類や数値自体を疑い,予測できない理由を検証しました。

浅井 どのように研究アプローチをしたのですか。

川上 ランダムフォレスト(図2)に基づく教師なし学習を実行し,分布を見てみました。すると,良性卵巣腫瘍は左側,進行卵巣がんは右側にきれいに分かれました(図3)。

図2 ランダムフォレストのイメージ(川上氏提供)(クリックで拡大)
左図のような条件に基づいて振り分ける決定木を,右図のようにランダムに数千~数万組み合わせ,各決定木の予測結果の多数決もしくは平均を取ることで結果を得る手法。

図3 ランダムフォレストに基づく教師なし学習を用いた卵巣腫瘍の進行期別の分布(川上氏提供)(クリックで拡大)
良性卵巣腫瘍と進行卵巣がんは明らかに異なる分布を示したものの,早期卵巣がんは「良性卵巣腫瘍に似た術前血液検査パターンを示すタイプ(クラスタ1)」と「進行卵巣がんに似た術前血液検査パターンを示すタイプ(クラスタ2)に分かれた。クラスタ1では再発がほとんどなかったのに対し,クラスタ2では再発率と死亡率が高く,予後との関連を示した。

浅井 早期卵巣がんの分布では,良性卵巣腫瘍に近いタイプ(クラスタ1)と進行卵巣がんに近いタイプ(クラスタ2)に分かれていますね。

川上 おっしゃる通りです。この結果は,早期卵巣がんと診断された患者の中で再発や死亡の転帰をたどる患者は進行卵巣がんのタイプに近く,逆に良性卵巣腫瘍に近いタイプの患者は,再発も死亡もほとんどしないことを示しています。すなわち,早期がんとくくられるがんに多様性があるために,既存の分類の基準を教師データとして区別しようとするAIでは,高精度に予測できるはずがなかったのです。

浅井 この教師なし学習の使い方は興味深いです。通常,医学分野で用いられる機械学習の多くは教師あり学習ですが,その限界は教師データが医師の診断になることです。つまり,医師を超える発想は生まれません。教師なし学習が人間では想定し得ない可能性に気付かせてくれることもあるのですね。

川上 当然ながらAIが導き出した結果が臨床的にあまり意義のない結論になる可能性はあるものの,その結果を臨床側にフィードバックし,「何か見落としはないか」「気になったことはないか」と聞くことで,さらなる気付きにつながることもあります。医学部の中にAIセンターができたことでこうした臨床へのフィードバックがしやすくなりました。

ビッグデータはAI研究に本当に必要か

浅井 AIを活用するためには数百~数万の症例を集めたビッグデータが必要と考える人は多いと思います。最近では学会主導でデータを集積して,深層学習を用いた診断支援システムの開発を活性化しようとする動きも出てきました。川上先生はこの流れをどう見ていますか。

川上 画像解析など,すでに研究手法が確立された分野に関しては,公共事業のように学会規模でデータを収集して最高精度を達成しなければならないと考えています。ただし,目標設定のないままデータを集積しても使えないデータを大量に集めるだけです。「何を測り,何を解明するか」という目標設定が重要になります。

 一方で,難病で症例数が少なかったり,画一的なデータがそもそも集まらなかったりする領域では,深層学習を活用できるほどのビッグデータを集められません。この領域に対してAIが何ができるかを考えるのは,これからの課題であり,ディープフェノタイプ研究の出番でもあります。

浅井 何か策はあるのでしょうか。

川上 現在,アトピー性皮膚炎の患者100人を対象とした小規模研究を行っています。対象患者には1年間,毎月来院していただき,血液検査や皮膚の細菌叢の検査,身体診察など,あらゆるデータを蓄積しているところです。言わば,患者1人からビッグデータを生み出すようなものです。

 今年度中にはデータの収集がひとまず終了するので,データをもとにAIの演算能力を生かし,解析結果から疾患に影響するであろう項目に絞って,より患者数を増やした大規模研究へと発展させる予定です。

浅井 確かに,あらゆる検査項目を学習させることはコストや人的資源の問題を考えても現実的ではなく,何を学習させるべきかを判断する探索的な小規模研究は必要となるはずです。ビッグデータを活用した大規模研究とこうした小規模研究のメリットをそれぞれ理解して,多方向からデータを集めなければなりませんね。

川上 ええ。はっきり言ってしまえば,世界を牛耳るGAFA(Google,Amazon,Facebook,Apple)や,国を挙げてデータ収集に取り組む中国に,データ量では到底勝てません。ですので,まだまだ発展途上の分野である,少量のデータから特徴を抽出する手法の開発が,これからのAI研究の醍醐味です。

浅井 同感です。さらに言えば,一つの高性能な研究モデルを作って満足するのではなく,そのモデルを新しいコホートに導入したり,他施設でも適用できるよう修正するなど,持続可能な形で新たな研究を作り続けることが必須と考えます。

医師に必要なのはデータの扱い方を見極める力

川上 これまで述べてきたように,AIを医学に応用する手法は日進月歩で考えられ,応用範囲は多岐にわたります。AI研究のそうした多様性も影響してか,最近は「医師がAIを勉強すべきなのか」との話題を耳にします。

 今年6月には,政府が主導する「AI戦略 2019」の教育改革の一つとして「数理・データサイエンス・AI教育」が目標に掲げられ,専攻にかかわらず全学部の大学生がAI教育を受ける方針が発表されました。浅井先生は医学部の学生を対象に,すでにAI教育を開始しているようですね。

浅井 はい。現在は「医用統計学・医用AI学」と題した講義をしています。この講義では従来の統計学に加えてベイズ統計学や,統計学の延長線上にある機械学習の内容も取り入れ,演習では統計言語「R」も活用しています。また,新設した「システムバイオインフォマティクス学」の講義では,AIとシステムバイオロジー,バイオインフォマティクスの入門を講義しています。

川上 学生は講義に対してどのような反応を見せているのでしょう。

浅井 AI解析を難しすぎると思う層と,もっと時間を割いて勉強したいと思う層に大きく分かれています。ただ,どちらの層も将来的に必要な分野ととらえているようで,おおむね興味を持ってもらえている印象です。

川上 AIに関心を寄せる学生に特徴はありますか。

浅井 傾向の一つとして,社会人や他学部を経験した学士編入の方が多い気がします。

川上 私が主宰する研究室でも同様に,他分野の経歴を持つ方が多いです。例を挙げると,素粒子物理学を専攻し,脳科学を研究した後で研究室に来た研究員,大学で純粋数学を専攻し,医学部に再入学後,当研究室に来た学生など,枚挙にいとまがありません。AI研究を多角的に進めるためにもこうした多様なバックグラウンドを持つ人材は貴重です。

浅井 あとは,もともと数学が好きだった学生も含まれると思います。医学生の中には,本当は数学が好きであるにもかかわらず,入試で好成績が取れてしまったがために医学部に進学してしまい,医学に興味を持てずにいる学生は一定数存在します。これまでは他の医学生と共に医学を修める中で,幸か不幸か数学への興味が薄まり,多くの人が立派な医師となってきたはずです。医学部にAI講座ができることによって,こうした学生の受け皿になれたとも感じています。

川上 そうですね。今までは従来の医師の枠に当てはめられ,その中では能力があまり高くないとの評価が下された方もいました。最近は「授業で数学を使う機会がなかった」と言って,数学を使った研究をしたいと話す医学生も出てくるようになりましたね。ただし,こうした学生はあくまで少数派です。医学生全員にAI教育をする意義はどこにあると考えますか。

浅井 AIとは何者なのかを知る機会の提供だと思います。恐らく約10年後には身の回りにAIを活用した診療機器があふれ,AIに依拠した診断をする医師も現れるでしょう。そうした世の中で医師となる前に,AIの仕組みを学んでおいてもらいたい。少なくとも仕組みさえ理解していれば,不具合があったときやAIを用いた臨床研究をしたいときなどに勘所が持てるようになるはずです。決して,未来の医師全員に診療機器を自分の手で開発・改良してほしいわけではありません。

川上 それに,医師自身が解析する必要もないはずですよね。重要なのはデータの扱い方を見極められるようになること。データサイエンティストに「こう頼めば,こうなる」とイメージできれば研究の視野が広がり,医学分野のAI研究は一変するはずです。

浅井 医師とデータサイエンティストの今後のさらなる連携によってAI研究が推進され,医療が変わっていく未来が楽しみですね。

(了)

註:Area Under the Curveの略。2つのクラスターを分類する際の評価指標である。0~1までの値を取り,一般的に0.8以上が高精度と考えられている。


あさい・よしゆき氏
1998年阪大基礎工学部卒。2003年同大大学院基礎工学研究科修了。博士(工学)。イタリアのトリノ大,スイスのローザンヌ大にて医学・生理学分野における数理情報工学の研究に従事し,05年に帰国後,産総研人間福祉医工学研究部門研究員となる。その後,システムバイオロジー研究のため,阪大臨床医工学融合研究教育センター特任准教授,沖縄科技大学院大オープンバイオロジーユニットグループリーダーを経て,16年に山口大大学院環境保健医学講座(当時)教授就任。18年より新たに発足した同大AIシステム医学医療研究教育センター長を兼務。

かわかみ・えいりょう氏
2007年東大医学部卒。大学入学当初よりAI研究に関心を持ち,臨床研修を行わずに同大大学院医学系研究科博士課程へ進学。博士(医学)。科学技術振興機構ERATO河岡感染宿主応答ネットワークプロジェクトの博士研究員を経て,13年に理研統合生命医科学研究センター特別研究員となる。17年には理研医科学イノベーションハブ推進プログラム健康医療データAI予測推論開発ユニットリーダーに就任。19年1月より理研とのクロスアポイントメントとして現職を兼務。同年4月に千葉大医学研究院附属治療学人工知能(AI)研究センターのセンター長就任。