【レポート】ABD316 – American Heart Association: Finding Cures to Heart Disease Through the Power of Technology – #reinvent #ABD316

2017.12.22

ベルリンの半瀬です。

はじめに

少し遅くなりましたが、re:Invent2017のセッションのご紹介です。

  • 原題: ABD316 - American Heart Association: Finding Cures to Heart Disease Through the Power of Technology
  • 登壇:
    • Bob Strahan - Sr. Consultant AWS
    • Jennifer Hall - Chief of Institute for Precision Cardiovascular Medicine, American Heart Associataion
    • Laura Stevens - PhD Candidate Computational Biosciences department, and AHA Fellow Bioinformaticist, AHA

動画

スライド

[slideshare id=83029276&doc=abd316-american-heart-associat-482c47c7-0c8d-4394-9f59-68c0cdde1a89-1573456279-171130050354]

内容

以下、セッションの動画内容とスライドの抜粋を紹介していきます。 アジェンダは以下のとおり、

  1. The AHA Precision Medicine Platform - why it's important and what it is/will be used for
  2. The heart of the architecture - hamonize, search. and analyze
  3. The PMP today
  4. What's Next?

1. The AHA Precision Medicine Platform

AHA(American Heart Association) Jennifer Hall氏による発表を要約します

  • 心臓(循環器)疾患は世界で最も多い死因(2秒に1人が心臓疾患で亡くなっている計算
  • 全死亡患者のうち、75%が低〜中所得の国に生活する人である
  • 心臓疾患に起因するコストは世界でおよそ年間9000億ドルと概算される
  • 2030年には1兆ドルに膨らむ見込み


およそ5年から10年前にはいわゆる医療科学分野の発展というものをこう行った場でお見せするようなものは、上のスライドのようなものでした(最先端の医療機械、器具などのディスプレイ)。

しかし今日の医療科学の加速的な発展を表現するには、データアクセス、データシェアリング、データ分析に、スポットライトが当たります。
実際に多くの患者の生命を助けています。

The Promise of personalized medicine

オーダーメイド医療・精密医療(プレシジョンメディシン)の分野においては、膨大なデータ活用の可能性があります。

  • 様々な個人情報: 郵便番号からゲノム配列まで
  • 24時間365日の生活データ: ウェアラブル端末(Apple Watch,Fitbit ... )などから収集
  • 生活環境: 大気汚染が多い環境なのか、その程度と種類は
  • 生活習慣: 何をよく食べ、飲んでいるか

個人の遺伝子、プロテオーム(細胞組織・状態)、マイクロバイオーム(体内細菌環境)などと相互影響する生活習慣・環境、これらを1枚の絵とすること。

これができれば、アルツハイマー、心疾患、心臓発作のリスクを明らかにし、ケアの方針を医療関係者にアドバイスすることが可能となります。また、事前に個人をそういったリスクを回避するように、適切なタイミングで処置をとることも可能とするでしょう。

それは心疾患にとどまらず、例えばガンや脳疾患、筋骨格の疾病といった医療領域まで広がる可能性を十分にもちます。

What problem are we trying to solve?

10年以上は電子レコードへの蓄積がよく話題とされていました。
しかし、多くの我々の問題は解決されていませんでした。電子レコードから結局は、紙資料としてファイリングし、病院の資料庫に蓄積されていたのです。
今日では、よりセキュアで迅速なデータ共有がこの電子レコードを通して実現されました。
医療産業において、大変な進歩です。

また、現代化されたヘルスケアは、スマートフォンから、PC・タブレットから、ウェアラブルデバイスから、あるいは内科医が持つ聴診器から、様々なものを通して収集されることを可能とします。このことも精密医療の大きな向上につながっています。

一方、科学的な発見における伝統的な障壁は、あらゆる研究者がデータを1つのロケーション(デスクトップなど)に秘蔵することにありました。

データは、多くの研究者やコンピュータサイエンティストたちに分析されることで、より大きな可能性を持ちます。我々は、それらを持ち出してもらい、共有することを通して、新しい医療ソリューションを発見する手助けしたかったのです。
データシェアと、より早いデータへのアクセスがこれらを実現させます。

また、実際の調査には多くのお金がかかりますし、コストの点においても本当に救い主となり得ます。
結果として、データセットに関するある種の市場を作り出すことができれば、障壁は取り払われます。

全てがアウトカム(治療の成果・患者の転帰)改善につながるのです。

2. The heart of Architecture

Bob Strahan氏による発表の要約です。

コアコンセプトとしては、多様なデータを複数かつ横断的に検索可能とし、また入力時に様々な名称を持つデータセットを標準的な形で、ユニット化することを目標としました。これがHarmonization(調和・標準化)のコンセプトにつながります。

  • あらゆるデータフォーマット形式に対応
  • データ展開をフレキシブルに
  • スタンダード更新に対応(※データセットの調査分析する方法に従い、標準化方式が変わることがあるが、随時更新・改善できること)

Discordant datesets & Harmonization

データセットとして調和されておらず(Discordant)独自の定義であった場合、データにアクセスできたとしても、フィルタリングや比較が困難となり、機能することはありません。調和されないデータセットが発生するのはなぜでしょうか?
それには以下のような理由があります。

  • 様々な人間が、様々なタイミングで、様々なことを目的として記録すること
  • 計測単位、尺度、カテゴリーも様々
  • 計測装置の多様性

これによって、「データ上は同じ名前ではないものが同じものを表現する」ことや、逆に「同じ名前が様々な意味を表現すること」ことが起きます。このような調和されていないデータセットがうまく機能するためには、Harmonization(調和・標準化)が必要となります。
検索可能なものとしなければ役に立つことはありません。

Harmonize(標準化)と、Search&Discovery(検索と発見)を実現するAWS構成

  • Harmonize
    • Amazon S3 ... 生データを配置。暗号化、アクセスポリシーによるセキュアな環境。バージョニング
    • pythonまたはR ... データサイエンスにおけるデファクトスタンダード
    • Jupitor Notebooks ... 文書の分析・統合と共有に使用。標準化プロセスについてレビューしたり、再定義をすることも可能とする
    • Apache Spark ... クラスターと複数ノードによる平行演算。豊富なデータセット操作と機械学習のライブラリにアクセス可能
    • Amazon EMR ... Apache Sparkを起動。S3にアクセス可能
  • Search&Discover
    • Elastic Search ... Apache Spark コネクタ

Researcher Workspaces - Clear, Beautiful, executable, reproducible scientific artifacts

さて、利用者(研究者)はどのように標準化されたデータを使用できるでしょうか。(前項で)説明したPythonやRとApache Spark(EMRクラスター上) の構成は、オープンソースで提供される多くの統計分析やマシンラーニングツールとの親和性を持つことになります。

つまり、Harmonization(調和・標準化)で使用した同じプラットフォームを使うべきだという考えになると思います。
AWS上にWorkspaceを用意すれば、必要なものに対してのみコストを支払うだけで済みますし、また、必要なものもインストールして使用することができました。

プラットフォーム(PMP: Precision Medicine Platform)内で、研究者の分析環境は作成・アクセス管理されますが、利用者(研究者)観点での利点は以下のようなものになります。

  • 利用者のWorkspacesは各自専有のAWSアカウントで起動可能
  • S3バケットポリシーによってアクセス制御を行い、データセットをセキュアに保つ
  • 専有アカウント内の、自分のバケットにデータセットを格納可能
  • EMR/Sparkが広範囲のデータサイエンス及びゲノミクスツールをサポートする

3. The PMP today Demo: precsion.heart.org

Laura Stevens氏によるデモの発表です。動画をご覧ください。
{DEMO動画26:40あたりから}

4. Whats Next?

Bob Strahan氏にマイクが戻り、今後の展望が紹介されました。
以下、箇条書き

  • Serverless Harmonization
    • AWS Glueに統合していく: データ統合時間の短縮の可能性
    • Serverless
    • Schema inference
    • PySpark code
    • Extensible
  • Parquetファイル形式
    • 全ての標準化済データをCSVからParquetに
    • 全てのデータをAWS Glue Catalogに
    • Amazon AthenaもしくはAmazon Redshift Spectrumを経由したSQL分析を可能とする: より早く、スケーラブルに
  • Serverless Analytics
    • Amazon Athenaの利用
    • Serverless SQL
    • データはS3上に
    • テーブルはSpark Harmonizationによって作成
    • Amazon QuickSight
    • Amazon Athenaを含め、様々で広範囲なデータソースへの互換性
    • Athena を経由して、データを可視化することができる: パターンと関係性の分析
  • DevSecOps, Comliance, etc...

まとめ

最後にJennifer Hall氏によってセッションはクローズとなりました。

  • Key Lessons Learned
    • 心疾患、脳卒中の学会はより多くのコンピュータエンジニア、アーキテクト、バイオインフォマティクス技術者を必要としている
    • 科学会はコーディングを常時必要としない、クラウドマーケットプレイスにおけるよりたくさんのツールを必要としている。また、クラウドコンピューティングを広めるために、データユースケースをより必要としている
  • AWSと協力することについて
    • 科学的な発見を加速するすることが可能な数多くのサービス: データへのアクセスと検索の改善、データ分析スペースの提供
    • クラウドアーキテクチャ、エンジニアリングのエキスパート
    • 市場に教育ツールを提供

さいごに

このセッションで紹介された構成に関しては、以下からサンプルスタックとともに確認することができます。

Harmonize, Search, and Analyze Loosely Coupled Datasets on AWS | AWS Big Data Blog

クラウドによって様々な"伝統的な"障害を打ち破っていく、というところにワクワクを感じざるを得ませんでした。
という、ざっくりなコメントで締めたいと思います。

それではまた