新サービスAmazon Omicsについて調べてみた#reinvent

2022.12.01

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

みなさんこんにちは、杉金です。
AWS re:Invent 2022で発表されたAmazon Omicsについて、どのようなサービスかを各種リファレンスをもとに調べてみました。ヘルスケアやライフサイエンス系の知識は無に等しいのですが、自分なりにまとめてみましたので暖かい目で見ていただけると幸いです。

新サービス発表時の速報記事は以下の記事をご覧ください。

また、以下のAWS公式ブログでより詳しく紹介されています。

対応リージョン

重要なこととして、今回発表された時点ではまだ東京リージョンには対応していません。以下のリージョンをサポートしています。

Region Name Region
US East (N. Virginia) us-east-1
US West (Oregon) us-west-2
Asia Pacific (Singapore) ap-southeast-1
Europe (Frankfurt) eu-central-1
Europe (Ireland) eu-west-1
Europe (London) eu-west2

概要図

Amazon Omicsサービス紹介ページに概要図が掲載されています。

引用:https://aws.amazon.com/jp/omics/

この図について左から順に説明していきます。

  • 二本鎖DNAのアイコン:RNAやDNAのようなシーケンスデータを表す。これをAmazon Omicsに取り込む
  • Amazon Omics : ゲノミクスやトランスクリプトミクスなどのオミックスデータを保存、クエリ、分析
  • Sequence store : 大規模解析と共同研究をサポート
  • Bioinformatics workflows : インフラストラクチャの自動プロビジョニングとスケーリングにより、分析の実行を簡素化
  • Variant and annotation data : バリアントとアノテーションのデータを最適化
  • Multimodal and multiomic analysis & Clinical and medical imaging data : 新しい洞察を得るためのデータ照会と分析

まとめると、Amazon Omicsはオミックスデータを保存、クエリ、分析し、そのデータから洞察を生成して科学的発見に役立たてる、という感じでしょうか。以下のリンクにもAmazon Omicsの特徴について記載されていますので合わせてご確認ください。

主要コンポーネント

Amazon Omicsは3つの主要コンポーネントで構成されています。

コンポーネント 説明
Omics Storage ペタバイト級の生ゲノムデータを低コストかつ効率的に保存・共有する(ギガベースあたり低コスト)
Omics Analytics マルチオミクスおよびマルチモーダル解析のためのゲノミクスデータの準備方法を簡素化
Omics Workflows バイオインフォマティクスワークフローの基礎となるインフラを自動的にプロビジョニング、拡張する

(補足)ギガベース=10億塩基対

Features of Amazon Omics | Amazon Omics Developer Guide

各コンポーネントごとに主要な概念と用語の定義があります。

Key Concepts | Amazon Omics Developer Guide

Omics Storage

Omics Storageは、ゲノムシーケンスおよび関連情報用のシーケンスストアとリファレンスゲノム用のリファレンスストアに分かれる。

  • シーケンスストア : ゲノミクスファイルを保存するためのデータストア。Amazon Omics 内に1つ以上のシーケンスストアを持つことができる。シーケンスストアへのアクセス許可とAWS KMSによる暗号化を設定して、データにアクセスできるユーザーを制御できる。
  • リードセット : リードセットはゲノミクスリードの抽象化であり、FASTQ、BAM、または CRAM 形式で保存される。リードセットをシーケンスストアにインポートして、メタデータで注釈を付けることができる。属性ベースのアクセス制御 (ABAC) を使用して、リードセットに対するアクセス許可を適用できる。
  • リファレンス : ゲノムリファレンスは、特定のリード(またはリードのグループ)がゲノムのどこにマッピングされているかを特定するためにリードと一緒に使用される。これらはFASTA形式で、リファレンスストアに保存される。
  • リファレンスストア : リファレンスゲノムを保存するためのデータストアで、アカウントやリージョンごとに1つのリファレンスストアを持つことができる。

Omics Analytics

Omics Analyticsでゲノミクスデータを変換・分析できる。バリアントストアアノテーションストアを作成し、クエリのための追加情報を含めることができる。

  • バリアントストア : バリアントデータを集団単位(population scale)で保存するデータストアで、バリアントストアは、genomic Variant Call Format(gVCF)およびVCFの両方の入力をサポートする。
  • アノテーションストア : TSV/CSV、VCF、またはGFF3(General Feature Format)ファイルからのアノテーションデータベースを表すデータストアで、インポート時にバリアントストアと同じ座標系にマッピングされる。

Omics Workflows

Omics Workflowsでゲノミクスデータを処理・解析できる。

  • ワークフロー : パラメータやツールへの参照を含む、エンドツーエンドプロセスの全体的な定義。ワークフローはWDLまたはNextflowで定義する。各ワークフローは一意の識別子を持つ。
  • 実行/ワークフロー実行 : ワークフローを1回実行すること。定義された入力データを使用し、出力を生成する。各実行は一意の識別子を持つ。
  • タスク : 実行内の個々のプロセス。オミックスワークフローでは、定義されたコンピューティング仕様を使用してタスクが実行される。各タスクには一意の識別子を持つ。
  • 実行グループ : 最大vCPU、最大期間、最大同時実行数を設定し、実行ごとに使用するコンピュートリソースを制限できる。実行グループ内のワークフロー実行の優先順位を指定および構成することができる。たとえば、優先度の高い実行を優先度の低い実行より先に実行するように指定し、優先度キューを作成できる。実行グループの使用は任意である。各実行グループは一意の識別子を持つ。

料金

料金については以下の公式料金ページをご確認ください。無料枠と料金が発生するポイントを参考として紹介しますが、今後改訂される可能性もあるため、最新は常に以下の公式のページをご確認ください。

無料枠

サービスを利用開始してから最初の2ヶ月は無料枠が用意されているようです。

コンポーネント Free Tier usage per month for the first 2 months
Amazon Omics storage 1500 gigabase-months in active storage class and 1500 gigabase-months in archive storage class
Amazon Omics workflows 275 omics.m.xlarge instance hours or equivalent compute instances and 49,000 GB-hours of run storage
Amazon Omics analytics 200 gigabyte-months

引用:https://aws.amazon.com/jp/omics/pricing/

使用料が発生するポイント

  • Amazon Omics storage pricing
    • 保管データのサイズ(ギガベース単位)
    • GET API呼び出し回数
  • Amazon Omics analytics pricing
    • 保管データのサイズ
  • Amazon Omics workflows pricing
    • 実際に利用したコンピューティングリソース
    • 使用したストレージ
    • ワークフローのログはCloudWatch logsの料金が発生

CLoudWatchの料金ページ

サービス制限(クォータ)

他AWSサービスと同様に各種リソースや機能に制限が設けられています。

本記事執筆時点で確認する限り、「Maximum ReferenceStores」以外は上限引き上げ可能でした。

よくある質問リンク

よくある質問へのリンクを以下に記載します。

関連するAWSソリューション

Amazon Omicsの話ではないのですが、関連するAWSソリューションも合わせてご紹介します。

最後に

可能な範囲でAmazon Omicsについてまとめてみました。調べながらマネジメントコンソールも軽く触ってみたのですが、想像していたほど複雑ではなさそうでした。調べていて難しかったのは、ユーザーガイドに書かれているリードとは、生物学用語のリードのこと言っているのか読み取り処理のことを言っているのか混乱させられたことです。あとは、オミクスかオミックスか、シークエンスかシーケンスなどの用語のブレにも少し悩みました。こういう場合、検索して広く使われてる方を採用するのですが、AWSマネジメントコンソールになるべく寄せました。あとは実際に触ってみてどうかも近いうちにやれたらなと思います。

参考資料