【レポート】AWSでのゲノミクスワークフローの自動化 #HLL12 #reinvent

2019.12.11

こんにちは。AWS事業本部のKyoです。

AWS re:Invent 2019のセッション「HLL12 - Genomics workflow automation on AWS」についてレポートします。

登壇者

Lisa McFerrin - Bioinformaticisit, Amazon Web Services

概要

In this lightning talk, learn about the approaches to running genomic workloads in the cloud, including AWS native and AWS Partner Network (APN) Partner solutions. We introduce standards promoting automation and interoperability, and walk through case studies highlighting applications in both Healthcare and Life Sciences.

コンテンツ

プレシジション・メディシン(精密医療)のためのゲノミクスの活用

  • 既存医療
    • 症状や臓器レベルでの伝統的な治療
  • プレシジョン・メディシン
    • 分子レベルでの独自の治療のために、遺伝子とタンパク質の個々の変動性を考慮
  • ゲノミックビッグデータオポチュニティ
    • プレシジション・メディシンではゲノミクスの活用とビッグデータ分析が必要

プレシジョン・メディシンにおけるゲノミクス

  • バイオロジーと疾患に関する知見をエンハンス
  • 医療の新規ターゲットの特定
  • 臨床試験のための患者コホート選択を改善
  • 治療戦略を通知して、患者の治療効果を最適化

ゲノム分析と経済的背景

  • ゲノム分析の臨床オポチュニティは世界的な投資を刺激
  • これはワークフローのシンプル化と継続的なコスト削減によって推進
  • R&Dリーダーは、自動化を適用できる可能性のあるユースケースを特定し、それぞれのビジネス価値を定量化し、運用上の影響を評価
  • 2013年以降、14以上の政府が4B$以上をゲノム医療イニシアチブに投資

チャレンジ

  • 標準化されたシーケーンシングと分析の信頼性の必要性
  • データ量がオンプレミスのストレージの限界を超える
  • オンプレミスのシェアードコンピュート(HPCクラスタ)実験の停止とリソース争い
  • 複雑なワークフローセットアップ

ゲノム分析に必要なソリューション on AWS

  • Data Transfer & Storage: DataSync
    • 安全なデータ転送
    • ライフサイクル管理
    • ストレージコストの最適化
    • 信頼できるパートナー
  • Secondary Analysis & Workflow Automation: StepFunctions
    • 複数のワークフローの管理
    • 柔軟性と再現性を備えたシンプルなデータ分析
  • Data Aggregation & Governance
    • マルチオミクスなデータセットの調和
    • 堅牢なデータアクセスでインフラを管理
  • Interpretation & Deep Learning: SageMaker
    • 高度なソリューションとサービスを利用して、ゲノムデータを実行可能なインサイトに変換

AWSはHIPPAのコンプライアンスに準拠

  • HIPAA(Health Insurance Portability and Accountability Act)
    • 1996 年に制定された米国における医療保険の相互運用性と説明責任に関する法令。
  • PHI (protected health information)
    • 保護された医療情報。保険とその支払いに関する情報、診断データ、臨床診療データ、画像を含む医療検査結果といった、医療および医療に関連のある非常に広範な個人識別データが含まれる。

詳しくはこちら

ゲノミクスにおけるAWS事例

  • 正規化とセキュリティ
    • コストを削減しゲノム解析の時間を短縮
      • Seven Bridges社
      • DNAnexus社
  • インフラのコード化
    • インフラに関する運用オーバーヘッドを最小限に抑えて結果を最大化
      • Karius社
      • Gencove社
  • 実験の加速
    • bioinfomaticistとデータサイエンティストのモダン化と研究と分析を加速
      • Mission Bio社
      • Goldfinch Bio社

実際のゲノミクスワークフロー

GATK Germline short variant discovery

  • GATKはBroad InstituteのData Sciences Platformで開発されたツールキット
  • バリアントの検出とジェノタイピングに主眼を置いた幅広いツールを提供
  • Germline short variant discoveryでは生殖細胞系の短い変異体(SNPおよびインデル)を特定

タスクのオーケストレーションとバッチ処理

StepFunctions, AWS Batch, S3の組み合わせ。

ilumina DRAGEN on AWS

DRAGEN

イルミナのDRAGEN(Dynamic Read Analysis for GENomics)Bio-IT Platformはシーケンスデータの精確かつ超高速な二次解析を実現します。

F1インスタンス

Amazon EC2 F1 インスタンスは、FPGA を使用してカスタムハードウェアアクセラレーションを実現できます。F1 インスタンスは、FPGA Developer AMI とクラウドでのハードウェアレベルの開発サポートを含めて、ハードウェアアクセラレーションコードの開発、シミュレーション、デバッグ、コンパイルに必要なすべての機能を備えているため、簡単にプログラミングを行うことができます。ハードウェアアクセラレーションを展開するために F1 インスタンスを使用することは、広帯域幅、高度なネットワーキング、非常に高いコンピューティング機能を必要とする複雑な科学、工学、ビジネスの問題を解決する多くのアプリケーションで役立ちます。

アーキテクチャ

ここから引用

インスタンスタイプは特殊ですが、アーキテクチャ自体はオーソドックスですね。

リソース

おわりに

月曜日のKeynoteにてinsitro社によるプレゼンがあったこともあり、AWS自体がヘルスケアやライフサイエンスに注力しているように感じます。

ウェットの出身者としては、インフォマティクス部分へのキャッチアップは必要だと感じました。一方でAWSアーキテクチャに関しては比較的ベーシックであると感じました。

以上、何かの参考になれば幸いです。