HOME
医学界新聞
記事一覧
2015年
「医療ビッグデータ時代」の幕開け（中山健夫）

「医療ビッグデータ時代」の幕開け（中山健夫）

寄稿

2015.01.05

「医療ビッグデータ時代」の幕開け

中山健夫（京都大学大学院医学研究科社会健康医学系専攻健康情報学分野教授）＝執筆

　ここ数年，さまざまな領域で「ビッグデータ」活用の動きが活発化している。ビッグデータとは「通常のデータベース管理ツールなどで取り扱うことが困難なほど巨大なデータの集まりであり，構造化データおよび非構造化データを含む」と定義され，その特徴として，Volume（量），Velocity（迅速性），Variety（多様性），そしてVeracity（正確性）を加えた“4V”が強調されている（図1）。

図1　ビッグデータの“4Ｖ”

迅速性とは，データの生成速度の速さや更新頻度の多さ，正確性とは測定の妥当性，対象の再現性などを指す。

　2010年に全世界で生成・複製されたデジタルデータ量は1200エクサバイト（1エクサバイト＝10億ギガバイト），それが15年には8500エクサバイト，20年には4万エクサバイト（40ゼタバイト）に達する見込みだ（図2）。ゼタバイトの1000倍，「ヨタバイト」の世界も，予想より早く訪れるかもしれない。この急速なデータ量の増大が「ビッグデータ」という言葉を生みだしたと言える。

図2　デジタルデータ量は「ゼタ」の時代へ

　医療・医学領域でも，ビッグデータへの関心は年々高まっている（図3）。ただ，この領域において現段階で整備・活用が進んでいるのは，構造化済みのいわば「大規模データ」である。この大規模データこそが，無限に広がっているであろうビッグデータの世界への現実的な入口と言えよう。

図3　「ビッグデータ」関連医学論文の動向

PubMedにて“big data”をキーワードに医学領域の収載論文を検索。

　本稿では，医療・医学のビッグデータの壮大な世界への導入として，国内の大規模データの最近の動向を，「医療（ヘルスケア）」と「生命科学（ライフサイエンス）」という2つの大きな軸から概観し，今後の展望を述べたい。

ヘルスケア領域の大規模データ：業務データと症例レジストリ

　ヘルスケア領域におけるデータベース（以下，DB）として格段に情報量が多いのは，通常の診療活動から自動集積される“業務データ（administrative data）”，DPCデータとレセプトデータである。DPCデータは，DPC（Diagnosis Procedure Combination；診断群分類）に基づいた患者の臨床情報と，なされた診療行為の電子データセットを指す。03年にわずか82の特定機能病院で導入されたDPCに基づく支払い制度は，14年度には約1860の病院・約53万床（全一般病床の約59％）が参加または参加準備中になるまでに普及。年間約878万件（11年度）のDPCデータが蓄積されている。

　DPCが急性期病院の入院医療のみを対象にする一方，慢性期や入院外まで，ほぼ全ての医療機関と調剤薬局をカバーするのが，レセプト（診療報酬明細）のデータである（図4）。かつては年間14億枚もの紙出力で，医療機関から市町村・健康保険組合等の保険者へと請求されていたレセプトデータだが，06年に完全オンライン請求が構想され，11年には原則義務化。現在，件数ベースで90％以上の電子化が達成されている。それを受けて，08年に施行された「高齢者の医療の確保に関する法律」に基づき，レセプトおよび特定健診のデータベース（National Data Base；NDB）構築が開始。09年から14年7月診療分までに約83億4800万件が蓄積され，今後も約18億件／年の増加が見込まれる。

図4　DPCデータとレセプトデータのカバー範囲

両データは，急性期から慢性期，入院から外来まで日本の医療のほぼ全域をカバーしている。

　DPCデータとレセプトデータにはそれぞれ一長一短がある。例えばDPCデータは統一性が高く非常に詳細で緻密だが，一医療機関内でしか患者情報が把握できない。一方，レセプトデータは傷病名の正確性に欠けるが，同一保険者内ならば患者情報を連結できる。ただし郵便番号がないため，患者所在地の把握が困難な場合がある（表）。とはいえ，両データを活用すれば日本の医療の現状をほぼ把握可能であり，地域への医療資源の適正配置の検討から，医療的介入の有効性，個々の診療とエビデンスとのギャップ評価にまで活用できる。

表　DPC データとレセプトデータの違い

　DPCデータは一般公開されていないのに対し，NDBは行政や地方自治体による利用のほか，研究目的での利用が11年から試験的に認められてきた。例えば現在，医薬品医療機器総合機構（PMDA）が1000万人規模の「医療情報データベース」を整備し，医薬品安全対策の薬剤疫学的基盤を作ろうとしている。そこに研究利用が許可されたレセプトデータも組み込まれ，14年10月より運用中の医薬品リスク管理計画（Risk Management Plan；RMP）にも活用される予定だ。なお，14年にはNDBにアクセスできるオンサイトセンターが東京大学と京都大学に設置され，今後のさらなる研究活用拡大への道筋も整備されつつある。

　また，臨床家が独自にデータを登録して構築する「症例レジストリ」も各領域で発展している。その筆頭が，00年に心臓血管外科領域から始まり，10年に全外科，本年から脳神経外科領域も合流するNational Clinical Database（NCD）だろう。NCDへの症例登録が，専門医制度指定修練施設の指定，または専門医資格取得に必須のため，14年度までに全国4000施設以上から約414万症例が登録済。外科手術の質向上に多大な貢献をしているほか，多様な臨床研究を推進する基盤となっている。

ライフサイエンス領域の大規模データ：ゲノムDB

　一方，「生命科学（ライフサイエンス）」領域のDBの発展も著しい。DNAの二重らせん構造が発見された1953年から50年目にあたる2003年，約30億塩基対という膨大なヒトゲノムの解読が完了。研究者の総力を挙げた取り組みは，生命科学・生物医学を新たなステージに押し上げた。

　解読されたゲノム情報の“意味”を明らかにするため，00年代前半からは人間集団を対象としたゲノム疫学（分子疫学）への関心が急速に高まった。海外では英......

この記事はログインすると全文を読むことができます。
医学書院IDをお持ちでない方は医学書院IDを取得（無料）ください。

「医療ビッグデータ時代」の幕開け（中山健夫）

「医療ビッグデータ時代」の幕開け

ヘルスケア領域の大規模データ：業務データと症例レジストリ

ライフサイエンス領域の大規模データ：ゲノムDB

いま話題の記事

最新の記事

医学界新聞公式SNS

「医療ビッグデータ時代」の幕開け（中山健夫）

シェアする

「医療ビッグデータ時代」の幕開け

ヘルスケア領域の大規模データ：業務データと症例レジストリ

ライフサイエンス領域の大規模データ：ゲノムDB

シェアする

いま話題の記事

最新の記事

医学界新聞公式SNS