Amazon Omics Analytics の Variant Store へファイルの一括インポートができるようになりました

バリアントファイルの同時インポート数が1から1000へと大幅に拡大されました
2023.04.01

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

Amazon Omics Analytics には Variant Store があり、バリアントファイル(VCF, gVCF)を保存し管理できます。このストアにファイルを保存するにはインポート操作が必要になります。

従来は1度にインポートできるバリアントファイルの数は1ファイルのみでした。そのため複数のファイルをインポートするには手間と時間がかかりました。

今回のアップデートで最大1000ファイルまで同時にインポートできるようになり、一度に大量のバリアントファイルをインポートできるようになりました。

Inventory icons created by Freepik - Flaticon

なにが嬉しいのか

機能面

  • 従来は1度にインポートできるファイル数は1ファイルのみでした
    • 複数のバリアントファイル(VCF, gVCF)をインポートするのには手間と時間がかかる
  • 今回のアップデートでバリアントファイルの一度にインポートできるファイル数が1000まで拡張された
    • まとめてバリアントファイルをインポートできるように改善された
  • マネージメントコンソールからの操作で同時にインポートできるファイル数は10個までに制限されている
    • 11ファイル以上を同時にインポートするには AWS CLI または SDK からの実行が必要

サービスクォータの変更点

  • 従来Maximu Files per import Jobの項目でバリアントファイルと、アノテーションファイルのインポート数制限は共通項目だった
  • 今回のアップデートで各ファイル毎のクォータに分離され、以下の2項目となった
    • Maxium Files per Variant Import Job
    • 制限数は1から1000へと拡張されました(本件のアップデート内容)
    • Maxium Files per Annotation Import Job
    • 制限数は1のままである

確認してみた

現在はサービスクォータのMaxium Files per Variant Import Jobの値から1000まで拡張されたことを確認できます。

従来のサービスクォータはMaximu Files per import Jobという名前でアノテーションファイルと、バリアントファイルのインポートジョブの最大値が共通化されていました。今回のアップデートでMaxium Files per Variant Import JobMaxium Files per Annotation Import Jobの2つの項目に分離し、バリアントファイルのインポート数だけ上限が拡張されています。

証拠となるものは過去のキャプチャしか見つけられませんでした。青枠の箇所を過去のサービスクォータ値のとして参考にしてください。

試してみた

実際に複数のバリアントファイルをインポートできるのか確認してみます。

大量の VCF ファイルが欲しかったのでシロイヌナズナ(Arabidopsis thaliana)のデータを以下のリンクからダウンロードしました。Variant Store へインポートするために S3 へアップロードしておきます。

Genome editing in plants using the compact editor CasΦ

マネージメントコンソールからの操作

マネージメントコンソールから S3 に保存済みのバリアントファイルをインポートしてみます。インポート操作画面からわかることはマネージメントコンソールからは10ファイルまでに制限されているようです。

従来はAdd anotherボタンがなく1ファイルしか指定できませんでした。

Add anotherボタンを押して10ファイルまでは S3 URI を指定できるためインポートジョブを実行してみました。

インポート結果です。10ファイル一括インポートできました。

最大1000ファイルまで同時インポート可能とのことですが、マネージメントコンソールからは10ファイルまでしかできないことがわかりました。

AWS CLI からの操作

API を使ったインポート操作であれば11ファイル以上のインポートできるのか確認してみます。--itemsに11ファイル分の S3 URI を指定することになりました。

aws omics start-variant-import-job \
  --destination-name arabidopsis_thaliana \
  --role-arn arn:aws:iam::123456789012:role/service-role/OmicsAnalyticsServiceRole \
  --items \
  source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263772_rdr6_nCasphi_U6PDS3gR10_line1_T2_transgenefree_albino_raw_GAKT_indels.vcf.gz \
  source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263772_rdr6_nCasphi_U6PDS3gR10_line1_T2_transgenefree_albino_raw_GAKT_snps.vcf.gz \
  source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263772_rdr6_nCasphi_U6PDS3gR10_line1_T2_transgenefree_albino_raw_Strelka_Variants.vcf.gz \
  source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263773_rdr6_nCasphi_U6PDS3gR10_line2_T2_transgenefree_albino_raw_GAKT_indels.vcf.gz \
  source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263773_rdr6_nCasphi_U6PDS3gR10_line2_T2_transgenefree_albino_raw_GAKT_snps.vcf.gz \
  source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263773_rdr6_nCasphi_U6PDS3gR10_line2_T2_transgenefree_albino_raw_Strelka_Variants.vcf.gz \
  source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263774_rdr6_nCasphi_U6PDS3gR10_line3_T2_transgenefree_albino_raw_GAKT_indels.vcf.gz \
  source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263774_rdr6_nCasphi_U6PDS3gR10_line3_T2_transgenefree_albino_raw_GAKT_snps.vcf.gz \
  source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263774_rdr6_nCasphi_U6PDS3gR10_line3_T2_transgenefree_albino_raw_Strelka_Variants.vcf.gz \
  source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263775_rdr6_plant1_raw_GAKT_indels.vcf.gz \
  source=s3://omics-work/arabidopsis-thaliana/vcf/GSM6263775_rdr6_plant1_raw_GAKT_snps.vcf.gz

インポートの結果はマネージメントコンソールから確認します。11ファイルインポートできています。

1000ファイルを同時にインポートする場合は、S3 URI を指定するのが手間なので所定の S3 バケットにアップロードした VCF ファイルをaws s3 lsなどで取得した結果を加工し、AWS CLI か SDK に渡す方法をとることになるのではないかと思います。

おわりに

今回のアップデートによりバリアントファイルのインポート作業の時間が大幅に削減され、より効率的に Omics Analytics の Variant Store へインポート作業をできるようになりました。ただし、AWSマネージメントコンソールからの操作で同時にインポートできるファイル数には制限がありました。11ファイル以上を一度にインポートする場合は、AWS CLIまたはSDKから実行する必要があります。

参考