AWS HealthOmics シーケンスストアに ETag が付与されファイルの変更、重複を識別しやすくなりました

AWS HealthOmics（Amazon Omics）AWS

大村保貴

2023.11.08

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

AWS HealthOmics のシーケンスストアへファイル（シーケンスデータ）を保存時にエンティティタグ（ETag）が自動的に付与されるようになり、ファイルの変更を容易に識別できるようになりました。

AWS HealthOmics シーケンスストアで、読み取りセット用に自動計算された ETag が追加

なにが嬉しいのか

エンティティタグ（ETag）はシーケンスストアへ保存したファイル内容（シーケンスデータ）のハッシュです。今回のアップデートによりファイル保存時にハッシュを自動計算し、計算結果は ETag として付与してファイル管理されるようになりました。これによりシーケンスストアへ保存したシーケンスデータの変更、複製を容易に識別できるようになりました。

同じシーケンスデータをシーケンスストアへ別名で保存しても ETag は同じ値で保存されます
シーケンスデータに何かしら変更があれば ETag は別の値で保存されます

やってみた

シーケンスストアへファイル保存

ETag が自動計算されるのか試すためにシーケンスストアへファイルを保存してみます。

インポートジョブは成功しファイルが保存され、リードセットが 1 つ追加されました。

追加されたリードセットを開いてみたのですが ETag を確認できる項目がありませんでした。

マネージメントコンソールから確認はできませんでした。

次に AWS CLI からシーケンスストアの単位でリードセットの情報を確認してみました。AWS CLI の実行結果から ETag の表示を確認できました。

$ aws omics list-read-sets --sequence-store-id 4105796119

{
    "readSets": [
        {
            "id": "4098818048",
            "arn": "arn:aws:omics:us-east-1:123456789012:sequenceStore/4105796119/readSet/4098818048",
            "sequenceStoreId": "4105796119",
            "subjectId": "DrosophilaMelanogaster",
            "sampleId": "Sample Drosophila melanogaster",
            "status": "ACTIVE",
            "name": "DrosophilaMelanogaster-20231108",
            "referenceArn": "arn:aws:omics:us-east-1:123456789012:referenceStore/7383825511/reference/6329765065",
            "fileType": "FASTQ",
            "sequenceInformation": {
                "totalReadCount": 370156,
                "totalBaseCount": 13325616,
                "alignment": "UNALIGNED"
            },
            "creationTime": "2023-11-08T07:32:47.568000+00:00",
            "creationType": "IMPORT",
            "etag": {
                "algorithm": "FASTQ_MD5up",
                "source1": "51c9b299ef94c2505368ca79a60e2294"
            }
        }
    ]
}

また、リードセット単体で確認するコマンドでも ETag の表示を確認できました。

$ aws omics get-read-set-metadata --sequence-store-id 4105796119 --id 4098818048

{
    "id": "4098818048",
    "arn": "arn:aws:omics:us-east-1:123456789012:sequenceStore/4105796119/readSet/4098818048",
    "sequenceStoreId": "4105796119",
    "subjectId": "DrosophilaMelanogaster",
    "sampleId": "Sample Drosophila melanogaster",
    "status": "ACTIVE",
    "name": "DrosophilaMelanogaster-20231108",
    "fileType": "FASTQ",
    "creationTime": "2023-11-08T07:32:47.568000+00:00",
    "sequenceInformation": {
        "totalReadCount": 370156,
        "totalBaseCount": 13325616,
        "alignment": "UNALIGNED"
    },
    "referenceArn": "arn:aws:omics:us-east-1:123456789012:referenceStore/7383825511/reference/6329765065",
    "files": {
        "source1": {
            "totalParts": 1,
            "partSize": 104857600,
            "contentLength": 11320478
        }
    },
    "creationType": "IMPORT",
    "etag": {
        "algorithm": "FASTQ_MD5up",
        "source1": "51c9b299ef94c2505368ca79a60e2294"
    }
}

同じシーケンスデータを保存した場合

同じシーケンスデータを保存した場合は同じ ETag の値になるとのことでしたので確認してみます。同じファイルを同じシーケンスストアへ保存しました。リードセットの ID はユニークな ID が自動的に付与されます。リードセット ID2537315187が新たに保存したファイルです。

$ aws omics list-read-sets --sequence-store-id 4105796119

ETag の値は同じになっていました。同じ内容のシーケンスデータが保存されていると言えます。または手違いで同じデータを重複して登録しているときの判別に利用できます。

{
    "readSets": [
        {
            "id": "2537315187",
            "arn": "arn:aws:omics:us-east-1:123456789012:sequenceStore/4105796119/readSet/2537315187",
            "sequenceStoreId": "4105796119",
            "subjectId": "DrosophilaMelanogaster",
            "sampleId": "Sample Drosophila melanogaster",
            "status": "ACTIVE",
            "name": "DrosophilaMelanogaster-20231108",
            "referenceArn": "arn:aws:omics:us-east-1:123456789012:referenceStore/7383825511/reference/6329765065",
            "fileType": "FASTQ",
            "sequenceInformation": {
                "totalReadCount": 370156,
                "totalBaseCount": 13325616,
                "alignment": "UNALIGNED"
            },
            "creationTime": "2023-11-08T10:21:42.140000+00:00",
            "creationType": "IMPORT",
            "etag": {
                "algorithm": "FASTQ_MD5up",
                "source1": "51c9b299ef94c2505368ca79a60e2294"
            }
        },
        {
            "id": "4098818048",
            "arn": "arn:aws:omics:us-east-1:123456789012:sequenceStore/4105796119/readSet/4098818048",
            "sequenceStoreId": "4105796119",
            "subjectId": "DrosophilaMelanogaster",
            "sampleId": "Sample Drosophila melanogaster",
            "status": "ACTIVE",
            "name": "DrosophilaMelanogaster-20231108",
            "referenceArn": "arn:aws:omics:us-east-1:123456789012:referenceStore/7383825511/reference/6329765065",
            "fileType": "FASTQ",
            "sequenceInformation": {
                "totalReadCount": 370156,
                "totalBaseCount": 13325616,
                "alignment": "UNALIGNED"
            },
            "creationTime": "2023-11-08T07:32:47.568000+00:00",
            "creationType": "IMPORT",
            "etag": {
                "algorithm": "FASTQ_MD5up",
                "source1": "51c9b299ef94c2505368ca79a60e2294"
            }
        }
    ]
}

S3 経由してインポート・エクスポート

シーケンスストアにファイルを保存するとき、シーケンスストアからファイルを取り出すときは基本的には S3 を経由することが多いです。S3 は S3 で ETag の計算されるのですが、インポートしたときのファイルと、エクスポートしたときのファイルの ETag に違いはあるのか気になりました。

先ほどインポートしたファイルをエクスポートし、ETag の値を比較してみます。ファイルのエクスポート操作は以下のブログをご参考ください。

AWS HealthOmics のシーケンスストアからファイルを取り出す方法 | DevelopersIO

エクスポートジョブを実行します。

aws omics start-read-set-export-job \
    --sequence-store-id 4105796119 \
    --destination s3://omics-work/export/ \
    --role-arn arn:aws:iam::123456789012:role/OmicsStorageServiceRole \
    --sources readSetId=4098818048

{
    "id": "8650862745",
    "sequenceStoreId": "4105796119",
    "destination": "s3://omics-work/export/",
    "status": "SUBMITTED",
    "creationTime": "2023-11-08T10:07:17.531000+00:00"
}

エクスポートジョブの完了を確認します。

aws omics get-read-set-export-job --sequence-store-id 4105796119 --id 8650862745

{
    "id": "8650862745",
    "sequenceStoreId": "4105796119",
    "destination": "s3://omics-work/export/",
    "status": "COMPLETED",
    "statusMessage": "The job completed successfully.",
    "creationTime": "2023-11-08T10:07:17.531000+00:00",
    "completionTime": "2023-11-08T10:08:34.681000+00:00",
    "readSets": [
        {
            "id": "4098818048",
            "status": "FINISHED",
            "statusMessage": "The source job has completed successfully."
        }
    ]
}