この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。
Amazon Omics Analytics へ GFF ファイルを保存に失敗してエラーを切り分けた結果、挙動から Amazon Omics の制限事項をわかったことを共有します。
調査結果
Omics Analytics の Annotaion Store では GFF ファイルに関して以下の制限を確認しています。
- GFF のバージョンを3サポート
- 拡張子は
.gff3
であること- 拡張子が
.gff
だとインポートに失敗します
- 拡張子が
2023年2月22日時点
GFF ファイルを保存してみた
GFF 形式のゲノムアノテーションファイルを Omics Analytics の Annotation Store へ保存するためにインポートジョブを実行しました。すると失敗した(Failed
)こと以外何もわからない結果が表示されます。
マネージメントコンソールから原因を特定できません。原因特定に繋がるステータスメッセージの確認方法は AWS CLI から実行するしかなく詳細はブログを参照ください。
原因
ステータスメッセージを確認すると拡張子は.gff3
にする必要があるようです。その他、圧縮した場合の拡張子にも制限があるようです。
"statusMessage": "Invalid file extension s3://omics-work/fruit-fly/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.gff, GFF file type must be .gff3. Valid compression formats are: .gz .gzip .bgz .bgzf .bgzip",
現時点では GFF ファイルの何のバージョンを Amazon Omics がサポートしているかはドキュメントに記載がありません。これは GFF のバージョンによってフォーマットが異なるため重要な情報です。今回のステータスメッセージより拡張子.gff3
を要求しているところから GFF version 3 はサポートしているものと判断します。
インポートを試みた GFF ファイルのバージョンは3で要件をクリアしているものと思われます。ですが拡張子はよく利用されている .gff
です。
$ head -n 6 GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.gff
##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
#!genome-build Release 6 plus ISO1 MT
#!genome-build-accession NCBI_Assembly:GCF_000001215.4
#!annotation-source FlyBase Release 6.46
対応
拡張子を.gff
から.gff3
にリネームしました。ファイル内容には手を加えていません。改めてインポートジョブを実行し、インポートに成功しました。
以上、結果からインポート時に拡張子に対してバリデーションチェックが行われていることがわかりました。
おわりに
拡張子.gff
がサポートされていないため、インポートに失敗する方が多いのではないかと思いブログを書きました。