Amazon Omics Storage リファレンスストアは圧縮したファイル形式には対応していないためインポートする前に確認しましょう

リファレンスストアは.fna.gzファイルをサポートしていません。展開してからインポートしましょう。
2023.02.04

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

リファレンスストアにリファレンスゲノム(.fna.gz)を保存しようとして失敗しました。Failedと表示されるだけで原因までは表示をしてくれないため原因を備忘録として残しました。

Inventory icons created by Freepik - Flaticon

確認結果

  • リファレンスストアに保存できるデータフォマットは非圧縮のFASTA形式のみである
    • リファレンスストアへインポート確認済み拡張子は以下です(2023/2/4現在)
    • 付加情報を付与しない.fastaファイル
    • 塩基配列の.fnaファイル

.fna.gzファイルのインポートに失敗した様子

リファレンスストアとシーケンスストア

リファレンスストアはFASTA形式のファイルのみ保存できるようになっています。 シーケンスストアはFASTQ形式のインポートに対応していますが gzip 圧縮してあることが条件になっています。詳しくは以下の記事を参考にしてください。

Amazon Omics の検証していて NCBI のデータベースからダウンロードしてきたFASTAファイルをそのままリファレンスストアへ保存しようとして失敗したときのお話です。

やってみた

やってみたというよりは別件の検証のためにリファレンスゲノムを保存しようとしたらハマって知りました。

エンドウヒゲナガアブラムシ(Acyrthosiphon pisum)のリファレンスゲノムをダウンロードしました。

  • ファイル名: GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna.gz

gzip で圧縮されていたのですがデータフォーマットはFASTA形式なので問題ないだろうとリファレンスストアにインポートをしてみました。するとインポート処理はFailedとなり保存できませんでした。

何がつらいかと言えばエラーの原因に繋がるメッセージは表示がないことです。切り分けはおそらく圧縮していることが問題なのだろうとあたりをつけて試してみます。

展開してから試してみた

非圧縮のFASTAファイルのインポート実績はあったため正常にインポートできました。

今回の挙動からリファレンスストアはシーケンスストアとは真逆で圧縮されていないことが条件の様です。

圧縮・非圧縮ファイルサイズの違い

gzip で圧縮するとファイルサイズが3分の1程度まで小さくできます。オンプレミスのストレージの場合は空き容量節約、S3 に保存する場合は重量課金額の抑制に繋がり長期保存するのであれば圧縮した方が好ましいでしょう。

$ ll
total 302984
-rw-r--r--@ 1 ohmura.yasutaka  staff    42M  2  3 21:01 GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna.gz
-rw-r--r--  1 ohmura.yasutaka  staff   139M  2  3 21:01 GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna

Omics Storage は bp(base pair) 数で課金される特殊な料金体系のため Omics Storage 利用費削減には繋がりません。ですので、リファレンスゲノムを保存するときは気にしなくて良いということなのでしょう。

おわりに

Omics Storage への移行を検討するとなると圧縮されているFASTAファイルは展開しないといけないですね。 ふと気になったことがありまして、リファレンスストアに非圧縮のFASTA形式であればアミノ酸配列の.faaファイルも保存できるのか?時間があれば試してみたいと思います。

参考