Amazon Omics Analytics へ GFF ファイルをインポートする前に拡張子を確認しましょう
Amazon Omics Analytics へ GFF ファイルを保存に失敗してエラーを切り分けた結果、挙動から Amazon Omics の制限事項をわかったことを共有します。
調査結果
Omics Analytics の Annotaion Store では GFF ファイルに関して以下の制限を確認しています。
- GFF のバージョンを3サポート
- 拡張子は
.gff3
であること- 拡張子が
.gff
だとインポートに失敗します
- 拡張子が
2023年2月22日時点
GFF ファイルを保存してみた
GFF 形式のゲノムアノテーションファイルを Omics Analytics の Annotation Store へ保存するためにインポートジョブを実行しました。すると失敗した(Failed
)こと以外何もわからない結果が表示されます。
マネージメントコンソールから原因を特定できません。原因特定に繋がるステータスメッセージの確認方法は AWS CLI から実行するしかなく詳細はブログを参照ください。
原因
ステータスメッセージを確認すると拡張子は.gff3
にする必要があるようです。その他、圧縮した場合の拡張子にも制限があるようです。
"statusMessage": "Invalid file extension s3://omics-work/fruit-fly/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.gff, GFF file type must be .gff3. Valid compression formats are: .gz .gzip .bgz .bgzf .bgzip",
現時点では GFF ファイルの何のバージョンを Amazon Omics がサポートしているかはドキュメントに記載がありません。これは GFF のバージョンによってフォーマットが異なるため重要な情報です。今回のステータスメッセージより拡張子.gff3
を要求しているところから GFF version 3 はサポートしているものと判断します。
インポートを試みた GFF ファイルのバージョンは3で要件をクリアしているものと思われます。ですが拡張子はよく利用されている .gff
です。
$ head -n 6 GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.gff ##gff-version 3 #!gff-spec-version 1.21 #!processor NCBI annotwriter #!genome-build Release 6 plus ISO1 MT #!genome-build-accession NCBI_Assembly:GCF_000001215.4 #!annotation-source FlyBase Release 6.46
対応
拡張子を.gff
から.gff3
にリネームしました。ファイル内容には手を加えていません。改めてインポートジョブを実行し、インポートに成功しました。
以上、結果からインポート時に拡張子に対してバリデーションチェックが行われていることがわかりました。
おわりに
拡張子.gff
がサポートされていないため、インポートに失敗する方が多いのではないかと思いブログを書きました。