Amazon Omics Storage ストレージクラス Archive から Active へ戻すまでの所要時間を調べてみた

2023.03.12

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

Amazon Omics Storage の Archive 層から Active 層に戻るまでの時間を調べたかったので確認してみました。

Archive 層に移動したデータを Active に戻すコマンドを実行して所要時間を確認した結果を紹介します。

Inventory icons created by Freepik - Flaticon

確認結果

現状ですとドキュメントには階層移動にかかる時間の記述はありません。

  • 147 MB のデータを Archive から Active へ戻す時間は1分47秒
    • ファイルサイズに依存するかは未確認
  • S3 に置き換えると以下の非同期なストレージクラス、階層からの迅速な取り出しの速度と同等
    • S3 Glacier Flexible Retrieval
    • S3 Intelligent-Tiering Archive Access

Inventory icons created by Freepik - Flaticon

※ 保存単価は現時点(2023/3/12)の us-east-1 の料金を元に記載しています。

確認してみた

シーケンスストアに保存されてから30日間アクセスがなく自動アーカイブされたリードセット(シーケンスデータ)をアクティブに戻してみます。

ArchivedからActiveになるまでの時間を確認します。

アクティブ化コマンド

ストレージクラスをアーカイブからアクティブへ変更の仕方は以下のブログをご参照ください。

ストレージクラスをアーカイブからアクティブへ変更するコマンドを実行します。対象のリードセット ID の指定方法がやや特徴の書式のため入力方法に注意してください。--sources readSetID=に続いてリードセット ID を入力します。

$ aws omics start-read-set-activation-job \
  --sequence-store-id 7557735457 \
  --sources readSetId=1112842603

リードセットをアクティブ化するジョブのサブミットしました。

実行結果

{
    "creationTime": "2023-03-06T12:42:43.080000+00:00",
    "id": "4588883163",
    "sequenceStoreId": "7557735457",
    "status": "SUBMITTED"
}

アクティブ化ジョブのステータス確認コマンド

実行結果に表示されたidを引数にしてステータス確認コマンドを実行します。

$ aws omics get-read-set-activation-job \
  --sequence-store-id 7557735457 \
  --id 4588883163

ジョブ実行中

処理中の場合はステータスがIN_PROGRESSと表示されます。もうしばらく待ちましょう。

実行結果

    "creationTime": "2023-03-06T12:42:43.080000+00:00",
    "id": "4588883163",
    "sequenceStoreId": "7557735457",
    "sources": [
        {
            "readSetId": "1112842603",
            "status": "IN_PROGRESS",
            "statusMessage": "The source job is currently in progress."
        }
    ],
    "status": "IN_PROGRESS",
    "statusMessage": "The job is currently in progress."
}

ジョブ実行完了

同じコマンドを再度実行してステータスCOMPLETEDを確認できました。ジョブが完了するとジョブの実行開始時間(creationTime)と終了時間(completionTime)を確認できます。

  • ジョブ開始: 12:42:43
  • ジョブ終了: 12:44:30
  • 差: 00:01:47

Omics Storage に保存されたリードセットをActiveに戻す処理時間は1分47秒でした。

実行結果

{
    "completionTime": "2023-03-06T12:44:30.019000+00:00",
    "creationTime": "2023-03-06T12:42:43.080000+00:00",
    "id": "4588883163",
    "sequenceStoreId": "7557735457",
    "sources": [
        {
            "readSetId": "1112842603",
            "status": "FINISHED",
            "statusMessage": "The source job has completed successfully."
        }
    ],
    "status": "COMPLETED",
    "statusMessage": "The job completed successfully."
}

S3 の取り出し時間と比較

S3 ストレージクラス、Intelligent-Tiering の階層は複数あります。以下のストレージクラスまたは、階層の取り出し性能と近しいことがわかりました。

  • S3 Glacier Flexible Retrieval
  • S3 Intelligent-Tiering Archive Access

上記のストレージクラス、階層から迅速な取り出しする時間は通常1-5分と定義されています。

Archive retrieval options - Amazon Simple Storage Service

Omics Storage の Archive 層は S3 Intelligent-Tiering Archive Access 層の迅速な取り出し性能と概ね同じの様です。

コストメリットはあるのか?

Omics Storage ですと取り出し料で別途迅速な取り出し費用はかかりません。保存料は保存する単価の単位が異なるため直接的な比較は難しいのですが実際にありがちなユースケースを想定して試算すると安価なことを確認しています(後述)。

シーケンスデータの保管場所として Omics Storage を利用する分には安価で性能の良い(コスパが良い)ストレージと言えるのではないでしょうか。ただ、マネージメントコンソールや、AWS CLI からの操作感(ユーザービリティー)はまだ良いと言うには厳しいため、触ってみてから判断いただきたいところです。

※ 単価は現時点(2023/3/12)の us-east-1 の料金を元に記載しています。

Inventory icons created by Freepik - Flaticon

Omics Storage と S3 の保存コスト比較は以下の記事を参考にしてください。

おわりに

今後はより大きなシーケンスデータを保存して Archive から Active にかかる時間の変化を検証する予定です。

参考