Amazon Omics Analytics へ GFF ファイルをインポートする前に拡張子を確認しましょう

拡張子.gffはサポートされておらず.gff3にリネームする必要があります
2023.02.22

Amazon Omics Analytics へ GFF ファイルを保存に失敗してエラーを切り分けた結果、挙動から Amazon Omics の制限事項をわかったことを共有します。

調査結果

Omics Analytics の Annotaion Store では GFF ファイルに関して以下の制限を確認しています。

  • GFF のバージョンを3サポート
  • 拡張子は .gff3 であること
    • 拡張子が.gffだとインポートに失敗します

2023年2月22日時点

GFF ファイルを保存してみた

GFF 形式のゲノムアノテーションファイルを Omics Analytics の Annotation Store へ保存するためにインポートジョブを実行しました。すると失敗した(Failed)こと以外何もわからない結果が表示されます。

マネージメントコンソールから原因を特定できません。原因特定に繋がるステータスメッセージの確認方法は AWS CLI から実行するしかなく詳細はブログを参照ください。

原因

ステータスメッセージを確認すると拡張子は.gff3にする必要があるようです。その他、圧縮した場合の拡張子にも制限があるようです。

"statusMessage": "Invalid file extension s3://omics-work/fruit-fly/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.gff, GFF file type must be .gff3. Valid compression formats are: .gz .gzip .bgz .bgzf .bgzip",

現時点では GFF ファイルの何のバージョンを Amazon Omics がサポートしているかはドキュメントに記載がありません。これは GFF のバージョンによってフォーマットが異なるため重要な情報です。今回のステータスメッセージより拡張子.gff3を要求しているところから GFF version 3 はサポートしているものと判断します。

インポートを試みた GFF ファイルのバージョンは3で要件をクリアしているものと思われます。ですが拡張子はよく利用されている .gff です。

$ head -n 6 GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.gff
##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
#!genome-build Release 6 plus ISO1 MT
#!genome-build-accession NCBI_Assembly:GCF_000001215.4
#!annotation-source FlyBase Release 6.46

対応

拡張子を.gffから.gff3にリネームしました。ファイル内容には手を加えていません。改めてインポートジョブを実行し、インポートに成功しました。

以上、結果からインポート時に拡張子に対してバリデーションチェックが行われていることがわかりました。

おわりに

拡張子.gffがサポートされていないため、インポートに失敗する方が多いのではないかと思いブログを書きました。