Amazon Bedrock Data Automation が一般提供されたので概要をまとめてみた

Amazon Bedrock Data Automation が一般提供されたので概要をまとめてみた

Clock Icon2025.03.05

こんにちは!クラウド事業本部コンサルティング部のたかくに(@takakuni_)です。

本日、 Amazon Bedrock Data Automation が一般提供されました。

https://aws.amazon.com/jp/about-aws/whats-new/2025/03/amazon-bedrock-data-automation-generally-available/

AWS Blog も公開されていますね。

https://aws.amazon.com/jp/blogs/aws/get-insights-from-multimodal-content-with-amazon-bedrock-data-automation-now-generally-available/

恥ずかしながら re:Invent 2024 で Amazon Bedrock Data Automation にあまり触れておらず、本日はどういった機能なのか、どのように使うのかと言った概要をまとめてみたいと思います。

Amazon Bedrock Data automation とは

Amazon Bedrock Data automation(以後、BDA)とは、ドキュメント、画像、ビデオ、オーディオなどの非構造化なコンテンツから、生成 AI を活用して構造化形式などに変換するサービスです。

非構造化データを構造化データに変換することで、データの分析/連携/品質向上が見込めます。

構造化データと非構造化データについて、より深く知りたい方は、以下をご覧ください。(とてもわかりやすいです)

https://aws.amazon.com/jp/compare/the-difference-between-structured-data-and-unstructured-data/

モダリティ

BDA ではモダリティという言葉がよく出てきます。ここでいうモダリティはデータモダリティ、つまりデータ形式と思っていただくと良いと思います。BDA では、モダリティとして以下をサポートしています。

ドキュメント

  • PDF、JPEG、PNG をサポート
  • API の場合は 500MB 以下、コンソールの場合は 200MB 以下であること
  • 1 つのドキュメントは 20 ページ以内であること。ドキュメント分割すると 1,500 ページまで対応可能
  • PDF
    • 高さは最大40インチ、幅は最大2880ポイントまで
    • パスワードで保護は不可
    • JPEG 形式で 2000 枚の画像を含めることが可能
  • 面内回転に対応
  • 10000 ピクセル以下の解像度の画像をサポート
  • ドキュメント内でドキュメントを水平に整列可能
  • 縦書きは非対応
  • 検出可能な最小文字サイズは 15ピクセル
  • 150 Dots Per Inch の場合、8ポイントのフォントに該当する

https://docs.aws.amazon.com/bedrock/latest/userguide/bda-output-documents.html#bda-document-limits

画像

  • JPEG、PNG をサポート
  • 最大ファイルサイズは 5MB
  • 最大解像度は 8k

https://docs.aws.amazon.com/bedrock/latest/userguide/bda-ouput-image.html#image-standard-output-example

ビデオ

  • MP4、MOV with H.264、VP8、VP9のビデオをサポート
  • 動画ファイルの長さは最大120分、サイズは最大10240MBまで
  • 幅と高さは 224 以上 7680 以下
  • 音声ファイルに複数の音声ストリームがある場合、最初のストリームのみを処理する

https://docs.aws.amazon.com/bedrock/latest/userguide/bda-ouput-video.html#video-standard-output

オーディオ

  • AMR, FLAC, M4A, MP3, Ogg, WAV をサポート
  • 最大ファイルサイズは2048MB
  • サンプルレートは最大48000 Hz、最小8000 Hz
  • 長さは最大240分、最小500ミリ秒
  • 複数のオーディオストリームがある場合、最初のストリームのみを処理する

https://docs.aws.amazon.com/bedrock/latest/userguide/audio-processing.html

構成要素

BDA には次の要素で構成されています。非常に少ないです。今後増えてから覚えるのと比較すると、今がキャッチアップのチャンスかもしれません。

  1. プロジェクト
  2. 標準出力
  3. カスタム出力

全体像を図にすると、次のイメージです。

Untitled(137).png

各々、どのようなものなのかピックアップします。

プロジェクト

プロジェクトは、どのようにデータの変換を行うのかをまとめる箱です。プロジェクトを定義し、その中で標準出力/カスタム出力をどう設定するのかを定義します。

標準出力

標準出力は BDA により事前に定義されたデータ変換の仕組みです。以下のモダリティに応じて、抽出/生成を設定できます。

文書

  • 粒度
    • 抽出する粒度。ページ/要素/単語のレベルがある
  • テキストフォーマット
    • どのフォーマットでテキスト化するか。(以下の4つが選べる)
      • プレーンテキスト
      • マークダウン付きテキスト
      • HTML 付きテキスト
      • CSV(テーブルのみ)
  • 生成フィールド
    • ドキュメントの説明と要約したものを生成する
  • 境界ボックス
    • 境界化されたボックスを粒度コントロールに基づいて生成する
  • 出力フォーマット
    • 出力結果のフォーマット
      • JSON または JSON + テキストフォーマットの形式のどちらかを選ぶ

画像

  • 抽出
    • 画像テキスト認識
      • テキストを認識するかどうか
    • コンテンツモデレーション
      • 有害なコンテンツを検出するかどうか
    • ロゴ
      • 企業のロゴが含まれるか検出
  • 生成
    • 画像サマリー
      • 画像の説明と要約したものを生成する
    • IAB タクソノミー
      • 広告分類法に基づいてコンテンツの分類を行う
  • 境界ボックス
    • 境界化されたボックスを粒度コントロールに基づいて生成する

映像

  • 抽出
    • 画像テキスト認識
      • テキストを認識するかどうか
    • コンテンツモデレーション
      • 有害なコンテンツを検出するかどうか
    • ロゴ
      • 企業のロゴが含まれるか検出:[^1]
  • 生成
    • 映像サマリー
      • 映像の説明と要約したものを生成する
    • IAB タクソノミー
      • 広告分類法に基づいてコンテンツの分類を行う
  • 境界ボックス
    • 境界化されたボックスを粒度コントロールに基づいて生成する

音声

  • 抽出
    • オーディオトランスクリプト
      • オーディオ全体のトランスクリプト
    • コンテンツモデレーション
      • 有害なコンテンツを検出するかどうか
  • 生成
    • 音声サマリー
      • 音声全体の要約
    • Topic summary
      • トピックごとの要約

カスタム出力

標準出力は事前に BDA で設定された設定値のオン/オフの切り替えでしたが、カスタム出力を使えばさらに細かく設定できます。

カスタム出力ではさらに次の要素で構成されます。なお、執筆時点でサポートしてるモダリティは、ドキュメントと画像の 2 つです。

  • ブループリント
    • フィールドをまとめた総称
    • プロジェクトに紐づけて設定する
  • フィールド
    • 抽出処理を行うデータのまとまり
    • インプットに対して、抽出処理を行う 指示 を定義し、データ型の定義や抽出タイプを設定する
  • タイプ
    • String や Number などデータの型
    • 特定のフィールド/タイプの組み合わせをまとめて、カスタムタイプを定義することも可能

クロスリージョン推論について

BDA では、クロスリージョン推論でデータの処理を行っています。

執筆時点でサポートされているリージョンは、バージニア北部リージョンとオレゴンリージョンですが、推論プロファイル内にはオハイオリージョンと北カルフォルニアリージョンも含まれています。

https://docs.aws.amazon.com/bedrock/latest/userguide/bda-cris.html

料金

一般提供に合わせ料金も発表されました。

標準出力

  • 音声 USD 0.006/minute
  • ドキュメント USD 0.010/page
  • イメージ USD 0.003/image
  • 動画 USD 0.050/minute

カスタム出力 (標準出力を含む)

  • ドキュメント USD 0.040/page
  • イメージ USD 0.005/image
  • フィールドが 30 を超える場合、0.0005/30フィールド単位で追加の料金が発生する

https://aws.amazon.com/jp/bedrock/pricing/

まとめ

以上、「Amazon Bedrock Data Automation が一般提供されたので概要をまとめてみた」でした。

実際に触ってみるブログも後日アップロードしていければと思います。クラウド事業本部コンサルティング部のたかくに(@takakuni_)でした!

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.