「医療ビッグデータ時代」の幕開け(中山健夫)
寄稿
2015.01.05
「医療ビッグデータ時代」の幕開け
中山 健夫(京都大学大学院医学研究科社会健康医学系専攻健康情報学分野教授)=執筆
ここ数年,さまざまな領域で「ビッグデータ」活用の動きが活発化している。ビッグデータとは「通常のデータベース管理ツールなどで取り扱うことが困難なほど巨大なデータの集まりであり,構造化データおよび非構造化データを含む」と定義され,その特徴として,Volume(量),Velocity(迅速性),Variety(多様性),そしてVeracity(正確性)を加えた“4V”が強調されている(図1)。
図1 ビッグデータの“4V” |
迅速性とは,データの生成速度の速さや更新頻度の多さ,正確性とは測定の妥当性,対象の再現性などを指す。 |
2010年に全世界で生成・複製されたデジタルデータ量は1200エクサバイト(1エクサバイト=10億ギガバイト),それが15年には8500エクサバイト,20年には4万エクサバイト(40ゼタバイト)に達する見込みだ(図2)。ゼタバイトの1000倍,「ヨタバイト」の世界も,予想より早く訪れるかもしれない。この急速なデータ量の増大が「ビッグデータ」という言葉を生みだしたと言える。
図2 デジタルデータ量は「ゼタ」の時代へ |
医療・医学領域でも,ビッグデータへの関心は年々高まっている(図3)。ただ,この領域において現段階で整備・活用が進んでいるのは,構造化済みのいわば「大規模データ」である。この大規模データこそが,無限に広がっているであろうビッグデータの世界への現実的な入口と言えよう。
図3 「ビッグデータ」関連医学論文の動向 |
PubMedにて“big data”をキーワードに医学領域の収載論文を検索。 |
本稿では,医療・医学のビッグデータの壮大な世界への導入として,国内の大規模データの最近の動向を,「医療(ヘルスケア)」と「生命科学(ライフサイエンス)」という2つの大きな軸から概観し,今後の展望を述べたい。
ヘルスケア領域の大規模データ:業務データと症例レジストリ
ヘルスケア領域におけるデータベース(以下,DB)として格段に情報量が多いのは,通常の診療活動から自動集積される“業務データ(administrative data)”,DPCデータとレセプトデータである。DPCデータは,DPC(Diagnosis Procedure Combination;診断群分類)に基づいた患者の臨床情報と,なされた診療行為の電子データセットを指す。03年にわずか82の特定機能病院で導入されたDPCに基づく支払い制度は,14年度には約1860の病院・約53万床(全一般病床の約59%)が参加または参加準備中になるまでに普及。年間約878万件(11年度)のDPCデータが蓄積されている。
DPCが急性期病院の入院医療のみを対象にする一方,慢性期や入院外まで,ほぼ全ての医療機関と調剤薬局をカバーするのが,レセプト(診療報酬明細)のデータである(図4)。かつては年間14億枚もの紙出力で,医療機関から市町村・健康保険組合等の保険者へと請求されていたレセプトデータだが,06年に完全オンライン請求が構想され,11年には原則義務化。現在,件数ベースで90%以上の電子化が達成されている。それを受けて,08年に施行された「高齢者の医療の確保に関する法律」に基づき,レセプトおよび特定健診のデータベース(National Data Base;NDB)構築が開始。09年から14年7月診療分までに約83億4800万件が蓄積され,今後も約18億件/年の増加が見込まれる。
図4 DPCデータとレセプトデータのカバー範囲 |
両データは,急性期から慢性期,入院から外来まで日本の医療のほぼ全域をカバーしている。 |
DPCデータとレセプトデータにはそれぞれ一長一短がある。例えばDPCデータは統一性が高く非常に詳細で緻密だが,一医療機関内でしか患者情報が把握できない。一方,レセプトデータは傷病名の正確性に欠けるが,同一保険者内ならば患者情報を連結できる。ただし郵便番号がないため,患者所在地の把握が困難な場合がある(表)。とはいえ,両データを活用すれば日本の医療の現状をほぼ把握可能であり,地域への医療資源の適正配置の検討から,医療的介入の有効性,個々の診療とエビデンスとのギャップ評価にまで活用できる。
表 DPC データとレセプトデータの違い |
DPCデータは一般公開されていないのに対し,NDBは行政や地方自治体による利用のほか,研究目的での利用が11年から試験的に認められてきた。例えば現在,医薬品医療機器総合機構(PMDA)が1000万人規模の「医療情報データベース」を整備し,医薬品安全対策の薬剤疫学的基盤を作ろうとしている。そこに研究利用が許可されたレセプトデータも組み込まれ,14年10月より運用中の医薬品リスク管理計画(Risk Management Plan;RMP)にも活用される予定だ。なお,14年にはNDBにアクセスできるオンサイトセンターが東京大学と京都大学に設置され,今後のさらなる研究活用拡大への道筋も整備されつつある。
また,臨床家が独自にデータを登録して構築する「症例レジストリ」も各領域で発展している。その筆頭が,00年に心臓血管外科領域から始まり,10年に全外科,本年から脳神経外科領域も合流するNational Clinical Database(NCD)だろう。NCDへの症例登録が,専門医制度指定修練施設の指定,または専門医資格取得に必須のため,14年度までに全国4000施設以上から約414万症例が登録済。外科手術の質向上に多大な貢献をしているほか,多様な臨床研究を推進する基盤となっている。
ライフサイエンス領域の大規模データ:ゲノムDB
一方,「生命科学(ライフサイエンス)」領域のDBの発展も著しい。DNAの二重らせん構造が発見された1953年から50年目にあたる2003年,約30億塩基対という膨大なヒトゲノムの解読が完了。研究者の総力を挙げた取り組みは,生命科学・生物医学を新たなステージに押し上げた。
解読されたゲノム情報の“意味”を明らかにするため,00年代前半からは人間集団を対象としたゲノム疫学(分子疫学)への関心が急速に高まった。海外では英国がバイオバンク・プロジェクトに取り組み,50万人のゲノム情報を蓄積,大規模な疫学研究を推進している。国内でもがんや生活習慣病の予防対策を目的に,国立がん研究センターなどによるJPHC・JPHC-NEXT,愛知県がんセンター・名古屋大学などによるJ-MICC,東北大学などによる東北メディカル・メガバンク機構がそれぞれ,数万から10万人規模のゲノムコホート研究として運営されている。また,地域密着の取り組みとして,滋賀県長浜市にて市と京都大学が連携し,1万人規模のコホート研究が実施されている(図5)。
図5 ながはま0次予防コホート事業の概要 |
質問票による環境・生活習慣情報742項目,生理学・血液学・生化学測定値145項目に加え,3713検体のゲノムスキャンを実施し,その後も定期的に健康情報を蓄積する。数十年単位でデータを集積することで,環境や生活習慣,遺伝が疾病の発症メカニズムにおよぼす影響を解明する計画だ。条例(通称:ながはまルール)の制定や,市と京大とで二重の倫理審査体制をとるなどして,ゲノムを含む個人情報の蓄積・活用への配慮も厳格に行われている。 今後は,MRIの脳画像やウェアラブルデバイスによるライフデータの記録なども予定されており,発症阻止・遅延などの「先制医療」の実現が期待される。 |
なお国内のゲノム情報は「散在するデータベースを,まとめて,使い易く」のスローガンのもと,科学技術振興機構のバイオサイエンスデータベースセンターにて統合化が進んでいる。
*
まとめると,医療・医学における主要な大規模DBとその活用方法は,現時点で以下4つに大別されよう。
(1)地域の医療資源配置・医療計画策定(主にDPCデータ,レセプト)
(2)医療の質向上,臨床研究(主に症例レジストリ)
(3)医薬品の安全性評価(主にレセプト,電子カルテ)
(4)疾患の原因解明,予防...
この記事はログインすると全文を読むことができます。
医学書院IDをお持ちでない方は医学書院IDを取得(無料)ください。
いま話題の記事
-
医学界新聞プラス
[第1回]心エコーレポートの見方をざっくり教えてください
『循環器病棟の業務が全然わからないので、うし先生に聞いてみた。』より連載 2024.04.26
-
対談・座談会 2025.03.11
-
医学界新聞プラス
[第2回]アセトアミノフェン経口製剤(カロナールⓇ)は 空腹時に服薬することが可能か?
『医薬品情報のひきだし』より連載 2022.08.05
-
対談・座談会 2025.03.11
-
医学界新聞プラス
[第1回]ビタミンB1は救急外来でいつ,誰に,どれだけ投与するのか?
『救急外来,ここだけの話』より連載 2021.06.25
最新の記事
-
対談・座談会 2025.03.11
-
対談・座談会 2025.03.11
-
対談・座談会 2025.03.11
-
FAQ
医師が留学したいと思ったら最初に考えるべき3つの問い寄稿 2025.03.11
-
入院時重症患者対応メディエーターの役割
救急認定看護師が患者・家族を支援すること寄稿 2025.03.11
開く
医学書院IDの登録設定により、
更新通知をメールで受け取れます。