Amazon Bedrock Data Automation が一般提供されたので概要をまとめてみた
こんにちは!クラウド事業本部コンサルティング部のたかくに(@takakuni_)です。
本日、 Amazon Bedrock Data Automation が一般提供されました。
AWS Blog も公開されていますね。
恥ずかしながら re:Invent 2024 で Amazon Bedrock Data Automation にあまり触れておらず、本日はどういった機能なのか、どのように使うのかと言った概要をまとめてみたいと思います。
Amazon Bedrock Data automation とは
Amazon Bedrock Data automation(以後、BDA)とは、ドキュメント、画像、ビデオ、オーディオなどの非構造化なコンテンツから、生成 AI を活用して構造化形式などに変換するサービスです。
非構造化データを構造化データに変換することで、データの分析/連携/品質向上が見込めます。
構造化データと非構造化データについて、より深く知りたい方は、以下をご覧ください。(とてもわかりやすいです)
モダリティ
BDA ではモダリティ
という言葉がよく出てきます。ここでいうモダリティはデータモダリティ
、つまりデータ形式と思っていただくと良いと思います。BDA では、モダリティとして以下をサポートしています。
ドキュメント
- PDF、JPEG、PNG をサポート
- API の場合は 500MB 以下、コンソールの場合は 200MB 以下であること
- 1 つのドキュメントは 20 ページ以内であること。ドキュメント分割すると 1,500 ページまで対応可能
- PDF
- 高さは最大40インチ、幅は最大2880ポイントまで
- パスワードで保護は不可
- JPEG 形式で 2000 枚の画像を含めることが可能
- 面内回転に対応
- 10000 ピクセル以下の解像度の画像をサポート
- ドキュメント内でドキュメントを水平に整列可能
- 縦書きは非対応
- 検出可能な最小文字サイズは 15ピクセル
- 150 Dots Per Inch の場合、8ポイントのフォントに該当する
画像
- JPEG、PNG をサポート
- 最大ファイルサイズは 5MB
- 最大解像度は 8k
ビデオ
- MP4、MOV with H.264、VP8、VP9のビデオをサポート
- 動画ファイルの長さは最大120分、サイズは最大10240MBまで
- 幅と高さは 224 以上 7680 以下
- 音声ファイルに複数の音声ストリームがある場合、最初のストリームのみを処理する
オーディオ
- AMR, FLAC, M4A, MP3, Ogg, WAV をサポート
- 最大ファイルサイズは2048MB
- サンプルレートは最大48000 Hz、最小8000 Hz
- 長さは最大240分、最小500ミリ秒
- 複数のオーディオストリームがある場合、最初のストリームのみを処理する
構成要素
BDA には次の要素で構成されています。非常に少ないです。今後増えてから覚えるのと比較すると、今がキャッチアップのチャンスかもしれません。
- プロジェクト
- 標準出力
- カスタム出力
全体像を図にすると、次のイメージです。
各々、どのようなものなのかピックアップします。
プロジェクト
プロジェクトは、どのようにデータの変換を行うのかをまとめる箱です。プロジェクトを定義し、その中で標準出力/カスタム出力をどう設定するのかを定義します。
標準出力
標準出力は BDA により事前に定義されたデータ変換の仕組みです。以下のモダリティに応じて、抽出/生成を設定できます。
文書
- 粒度
- 抽出する粒度。ページ/要素/単語のレベルがある
- テキストフォーマット
- どのフォーマットでテキスト化するか。(以下の4つが選べる)
- プレーンテキスト
- マークダウン付きテキスト
- HTML 付きテキスト
- CSV(テーブルのみ)
- どのフォーマットでテキスト化するか。(以下の4つが選べる)
- 生成フィールド
- ドキュメントの説明と要約したものを生成する
- 境界ボックス
- 境界化されたボックスを粒度コントロールに基づいて生成する
- 出力フォーマット
- 出力結果のフォーマット
- JSON または JSON + テキストフォーマットの形式のどちらかを選ぶ
- 出力結果のフォーマット
画像
- 抽出
- 画像テキスト認識
- テキストを認識するかどうか
- コンテンツモデレーション
- 有害なコンテンツを検出するかどうか
- ロゴ
- 企業のロゴが含まれるか検出
- 画像テキスト認識
- 生成
- 画像サマリー
- 画像の説明と要約したものを生成する
- IAB タクソノミー
- 広告分類法に基づいてコンテンツの分類を行う
- 画像サマリー
- 境界ボックス
- 境界化されたボックスを粒度コントロールに基づいて生成する
映像
- 抽出
- 画像テキスト認識
- テキストを認識するかどうか
- コンテンツモデレーション
- 有害なコンテンツを検出するかどうか
- ロゴ
- 企業のロゴが含まれるか検出:[^1]
- 画像テキスト認識
- 生成
- 映像サマリー
- 映像の説明と要約したものを生成する
- IAB タクソノミー
- 広告分類法に基づいてコンテンツの分類を行う
- 映像サマリー
- 境界ボックス
- 境界化されたボックスを粒度コントロールに基づいて生成する
音声
- 抽出
- オーディオトランスクリプト
- オーディオ全体のトランスクリプト
- コンテンツモデレーション
- 有害なコンテンツを検出するかどうか
- オーディオトランスクリプト
- 生成
- 音声サマリー
- 音声全体の要約
- Topic summary
- トピックごとの要約
- 音声サマリー
カスタム出力
標準出力は事前に BDA で設定された設定値のオン/オフの切り替えでしたが、カスタム出力を使えばさらに細かく設定できます。
カスタム出力ではさらに次の要素で構成されます。なお、執筆時点でサポートしてるモダリティは、ドキュメントと画像の 2 つです。
- ブループリント
- フィールドをまとめた総称
- プロジェクトに紐づけて設定する
- フィールド
- 抽出処理を行うデータのまとまり
- インプットに対して、抽出処理を行う
指示
を定義し、データ型の定義や抽出タイプを設定する
- タイプ
- String や Number などデータの型
- 特定のフィールド/タイプの組み合わせをまとめて、カスタムタイプを定義することも可能
クロスリージョン推論について
BDA では、クロスリージョン推論でデータの処理を行っています。
執筆時点でサポートされているリージョンは、バージニア北部リージョンとオレゴンリージョンですが、推論プロファイル内にはオハイオリージョンと北カルフォルニアリージョンも含まれています。
料金
一般提供に合わせ料金も発表されました。
標準出力
- 音声 USD 0.006/minute
- ドキュメント USD 0.010/page
- イメージ USD 0.003/image
- 動画 USD 0.050/minute
カスタム出力 (標準出力を含む)
- ドキュメント USD 0.040/page
- イメージ USD 0.005/image
- フィールドが 30 を超える場合、0.0005/30フィールド単位で追加の料金が発生する
まとめ
以上、「Amazon Bedrock Data Automation が一般提供されたので概要をまとめてみた」でした。
実際に触ってみるブログも後日アップロードしていければと思います。クラウド事業本部コンサルティング部のたかくに(@takakuni_)でした!