医学界新聞

寄稿

2015.01.05



ライフサイエンス領域におけるビッグデータの利活用

山田 亮(京都大学大学院統計遺伝学分野教授)


 「ライフサイエンス」は「いきもの」を扱う諸科学(理学の中の生物学と,実学としての農学・医学・薬学)を合わせた領域として成立しているが,同時期に進んだマイクロ・ナノ技術とコンピューターの大発展とを取り込み,ビッグデータサイエンスとなったことも重要な特徴の一つである。そもそも生物現象が多様性の学問であることを考えると,ライフサイエンスのビッグデータ化は非常に重要な変化と言えよう。

ライフサイエンス領域におけるビッグデータとは

 では,ライフサイエンス領域ではどのようなビッグデータがどうやって得られるのだろうか。以下にいくつか紹介する。

(1)ゲノム・オミックスデータの 一括測定
 ヒトのゲノムDNA配列は約30億塩基対に及ぶ。その数パーセントにあたる2万数千個のコーディング遺伝子(機能するタンパク質を塩基配列で指定している遺伝子)を中心に,数千万以上のゲノム配列のバリアントを一気に測定したり,全遺伝子の発現量を一括して測定したり,試料中の全タンパク質や代謝物を一括して測定したりすることも,容易になった。こうした測定を数千人から数万人を対象に実施することで,非常に大きなデータが得られる。

 一方,これらの実験を個々の細胞ごとに実施すれば,身体を構成するさまざまな細胞について,臓器組織別の違いや,受精卵から死亡するまでという時期の違い,病的な変化の有無などについて個別に調べられる。つまり,一人ひとりの中に大きなデータリソースがあると言える。

(2)経時的・高容量の記録
 音声・映像記録のデジタル化も,大規模なデータをもたらす。記録方式がアナログからデジタルに変わることで,コンピューター解析と直結し,ライフサイエンスのその他のデータと同じ土俵で扱えるようになった。これにより,個体の動作や顕微鏡下の細胞・分子の動きを撮影し,ダイナミックな動きや変化を解析することが可能となった。このような音声・映像のビッグデータ化は,医療画像分野はもとより,日常生活でも容易に実感できるだろう。

(3)インターネットを活用した横断的データ利用
 個々のライフサイエンス研究が扱うデータがビッグデータ化している中,これらのデータを共同研究グループ間で共有したり,インターネット上に公開し広く研究コミュニティーの利用に供したりすることで,複数のビッグデータを組み合わせた研究も可能となった。公的研究資金によって得られたゲノムやオミックス(包括的生命情報)の生のデータは公共財と見なされ,公開が義務付けられることも多くなっている。なおデータの公開には,公共化という側面だけでなく,相互検証の道を開くことで研究不正を防ぐという重要な側面がある。

 ライフサイエンス領域のビッグデータにはさまざまなキーワードが関連する

電子カルテやウェアラブル・デバイスの活用も

 疾病を研究対象にする場合,疾病の有無や詳細情報は診療録(カルテ)から得ることになるため,その電子化はとても大きな利点となる。電子カルテからならば,多人数の検査値などのデータ抽出が容易に行えるため,複数の疾患の有無を同時に調べたり,多くの検査項目を一括して解析対象にすることが可能になった。また,ネットワークで結合された複数の電子カルテシステムを横断的に活用することも可能である。実際,そうして連結された電子カルテを大規模なデータベースとみなし,疾患関連遺伝子探索を行う研究スタイルも海外では展開されている。

 ICTを利用した個人のフェノタイプ(遺伝子型の形質としての発現)情報の活用は電子カルテにとどまらない。身につける装置(ウェアラブル・デバイス)を通じて血圧や運動量,周囲環境情報などのライフログと呼ばれる情報をネットワーク転送してデータ蓄積し,医療・健康管理に役立てる方法があるが,これと同様の方法で経時的にさまざまな身体・環境記録を取り,ゲノム疫学研究に用いることが可能となっている。

関節リウマチのリスク遺伝子解析にみる,大規模ゲノム解析

 ライフサイエンスにおけるビッグデータの活用は非常に多くの領域で進められているが,ここでは筆者がかかわってきた,関節リウマチ(RA)のリスク遺伝子多型解析の分野を例に挙げる。

 RAは炎症性関節破壊を特徴とする疾患であり,背景には自己免疫現象があると考えられているが,その病理は不明な点が多かった。その遺伝性に着目し,ゲノム上の遺伝子全てを対象として,未知の病理の解明とその応用をめざしたアプローチをとった。21世紀に入ってすぐ,ゲノム全体に数万個の一塩基多型を配し,数百人規模でのケース・コントロールスタディが開始。その後の10年で多型数を百万超に増やすに至り,サンプル数も国内他機関との協働や公的バンクの整備により,数千から万に増加した。さらに国際共同研究により数万人規模にまで増えるとともに,統計学的手法により“実際に実験をせずに”多形の型を数倍に増やし,より稠密にゲノム全体を調べられるようになった。またゲノムのみにとどまらず,生命情報を多層・統合的に解析する「トランスオミクス解析」の導入,データベースの横断的・情報科学的活用などにより,数多くの遺伝子に,発病リスクや薬剤の作用機序解明という視点から光が当たりつつある。

 ただし,データの活用はまだまだ初期段階にとどまっており,ビッグデータ化の進展により,さらなるデータ解析手法の開発への要請が高まっている。

ビッグデータから何を知り,どう活かすのか

 また,ビッグデータを用いて,何がどのように予測可能・不可能かを整理し,予測情報をいかに利活用するべきか,という点にも課題が残る。

 気象・地球科学を例にとるとわかりやすいだろう。日々の天気予報や台風の進路予想が,気象情報のビッグデータ化と高性能のコンピューターの導入により急速に進歩したことは,天気予報が“当たらないもの”の例えにされていたのがそう遠くない昔であることからも明らかだ。一方で,突発的に起きる火山の噴火や大規模地震の場合は,長いタイムスパンでの発生確率の数値化はできても,発生時期の正確な予測は難しく,そもそも発生時期の特定を目標にすること自体が無意味,という考え方もあるようだ。

 だからと言って地震型のデータ蓄積が無駄なのではなく,データに基づく大きなくくりでのリスク評価が重要であることは間違いない。発病や治療予後に関する予測の場合も同様に考えることが適切で,予想しようとしている対象が“台風の進路予想タイプ”なのか,“大型地震タイプなのか”を区別した上で,データの利活用戦略を決めていくことが重要になると思われる。

求められる,データサイエンス・数理科学との連携強化

 このようにビッグデータ化が進展する中,データを用いて何を知るか,いかに有効活用するかという点で,データサイエンスや統計科学との連携が待望されている。データが膨大となり,そこに見いだされる真実や予測ルールが複雑になることから,大量のデータを高速に取り扱うための情報技術,複雑な関係をとらえるためのネットワーク理論,因果関係やもっともらしさを数値化するための確率手法,意味を掘り起こすための機械学習などの既存手法を適用しつつ,新たな方法を開発していく必要があると考えられている。

 冒頭に述べたとおり,生命現象の本質はバラツキがあることだが,マイクロ・ナノテクノロジーとデジタル化技術,計算機科学,統計科学の進歩を経て,バラツキをとらえる学問としての医学・生命現象の理解のための基盤が21世紀になってようやく整ったと言える。その意味で,今後のライフサイエンス領域のビッグデータ活用においては,工学・情報学とそれを支える数理科学との強い連携が期待されているとのメッセージで,この小文を締めくくりたいと思う。


山田 亮
1992年東大医学部卒。国立病院医療センター(現・国立国際医療研究センター),米ミシガン大病院における内科研修を経て,東大病院物療内科,アレルギー・リウマチ内科入局。2000年より理研遺伝子多型研究センター,京大大学院医学研究科附属ゲノム医学センター,東大医科研ヒトゲノム解析センターを経て09年より現職。