AWS HealthImaging 入門:商用利用可能な医療画像データを取得してみた
はじめに
AWS HealthImaging で取り扱うのは医療画像データです。CT、MRI、X 線などの医療画像と、患者情報や音声データなどのメタデータを持たせて保存できる DICOM という規格の画像データがあります。検証のために DICOM 規格の医療画像データが必要となった場合どうしたらよいのでしょうか。
今回は NCI Imaging Data Commons から DevelopersIO 掲載するために商用利用可能な医療画像データを取得する方法と用語の解説をします。
用語解説
DICOM とは
医療画像データの標準規格として DICOM(Digital Imaging and Communications in Medicine)があります。DICOM は以下の 2 つの種類がある標準規格です。
- 画像フォーマット規格:CT、MRI、X 線などの医療画像データを高精細かつ可逆的に保存するファイル形式
- 通信プロトコル規格:異なるメーカーの医療機器間でデータ通信するための通信プロトコル
DICOM ファイルには画像データだけでなく、患者情報、撮影条件、検査日時などのメタデータが含まれています。
NCI Imaging Data Commons とは
NCI Imaging Data Commons(IDC)は、米国国立がん研究所が提供する医療画像データのプラットフォームです。研究や開発に利用できる大規模な DICOM データセットを公開しており、商用利用可能なライセンスでデータを提供しています。データのホスティング先として、AWS と Google Cloud が利用されています。
データホスティング先の AWS とは
AWS がスポンサーとなり研究機関や政府機関などが保有するデータを S3 に無償で保存でき、利用者も認証なしでかつ無償で利用できます。このことを Open Data on AWS と呼んでいます。
s5cmd について
S3 上の大量の DICOM ファイルを効率的にダウンロードするために s5cmd を使用します。並列実行によりアップロード、ダウンロードの転送速度が期待できるコマンドラインツールです。今回は IDC から取得するマニフェストファイルを引数に指定してファイルのダウンロードに使用します。
医療画像データのダウンロード準備
データをダウンロードするための情報が記載されたマニフェストファイルを取得するところがファーストステップです。
マニフェスト取得手順
IDC ポータルへアクセスします。
左サイドバーの「License」セクションで「CC BY 4.0」を選択します。使用時は NCI Imaging Data Commons からの出典明記が必要ですが、商用利用可能です。
必要なコレクションをカートに入れて、Manifest をダウンロードします。検証データ用途なので症例数が少なくサイズ少ないであろうコレクションを選択しました。
s5cmd 用のマニフェストファイルをダウンロードします。
.s5cmd
拡張子のマニフェストファイルがダウンロードできたら準備完了です。
$ cat manifest_20250703_023217_aws.s5cmd
# To obtain these images, install s5cmd (https://github.com/peak/s5cmd),
# then run the following command:
# s5cmd --no-sign-request --endpoint-url https://s3.amazonaws.com run <manifest file name>
cp s3://idc-open-data/969ddac4-43be-4ca2-8631-4b8b7ddb0c01/* .
cp s3://idc-open-data/bb80e7f4-ec67-4f83-ac33-562c3ad66d71/* .
cp s3://idc-open-data/31d2e197-cafe-43ab-ae51-98d239a86e44/* .
cp s3://idc-open-data/aafd77c8-20b1-42ea-8244-7dd6f128fa22/* .
医療画像データのダウンロード
s5cmd のインストール
マニフェストファイルを利用してダウンロードするために s5cmd をインストールします。
brew install peak/tap/s5cmd
ダウンロード実行
マニフェストファイルを使用して、DICOM データを一括ダウンロードします。しばらく放置です。
--no-sign-request
: 認証なしでパブリックデータにアクセス--endpoint-url
: AWS S3 エンドポイントを指定run
: マニフェストファイル内のコマンドを実行
s5cmd --no-sign-request --endpoint-url https://s3.amazonaws.com run manifest/manifest_20250703_023217_aws.s5cmd
ダウンロード結果の確認
ダウンロードが完了したら、正しく DICOM ファイルが取得できているか確認します。
ファイル数がハンパなかったです。500KB くらいのファイルが大量にダウンロードできました。
$ find . -name "*.dcm" | wc -l
1966
合計サイズはそこまで大きくありません。
$ du -sh .
1.1G .
以上で AWS HealthImaging で検証をはじめるための医療画像データが入手できました。
まとめ
IDC からダウンロードの場合は、マニフェストファイルと s5cmd を活用することで、AWS HealthImaging の検証に必要な商用利用可能な DICOM データを効率的に取得できます。
おわりに
検証で必要になった医療画像データの取得方法をメモしておきました。