Amazon Bedrock Managed Knowledge Base で画像・音声・動画のマルチモーダル RAG を構築してみた

Amazon Bedrock Managed Knowledge Base で画像・音声・動画のマルチモーダル RAG を構築してみた

Amazon Bedrock Managed Knowledge Base を使って、マルチモーダルの RAG を実際に構築してみました。 画像・音声・動画に対応した RAG が手軽に実装できるようになったので、その手順をご紹介します。
2026.06.24

AI事業本部/生成AIインテグレーション部/西日本開発チームの片桐です。
今回は、Amazon Bedrock Managed Knowledge Base でマルチモーダルの RAG を構築する手段についてご紹介します。

この記事について

[対象読者]

  • AWS 上でマルチモーダルの RAG を構築したい方
  • Amazon Bedrock Managed Knowledge Base について知りたい方

Amazon Bedrock Managed Knowledge Base とは

2026年6月17日に GA (一般公開) された Bedrock で RAG を構築する際の選択肢のひとつです。
今まではパイプラインの全体を構築し管理する必要がありましたが、マネージドナレッジベースではインフラやデータパイプラインを AWS に任せて RAG を構築することが可能になります。

  • インフラ管理
    データの取り込みからインデックス作成、ストレージ、検索インフラが自動で管理されます。
    ストレージのオートスケーリングにも対応しています。
  • ベクトルストアの運用
    埋め込みからリランク、推論のプロセスを標準で管理します。
    埋め込みモデルについてもマネージドモデルを使うことで、コストを抑えることができます。
  • スマートパーシングとマルチモーダル対応
    PDFやPPTX、Wordファイル、画像を含むドキュメント、音声や動画などのマルチモーダルに対応し、ファイル形式に応じて最適な解析手法 (スマートパーシング) が自動的に適用されます。
  • 豊富なコネクタと権限管理
    Amazon S3 に加えて、 Microsoft SharePoint 、 Confluence 、 Google Drive 、 Microsoft OneDrive などのコネクタが標準で用意されています。
    また、検索時にアクセス制御リストを用いたドキュメントレベルの権限フィルタリングが可能です。
  • Amazon Bedrock AgentCore とのネイティブ統合
    これは AI エージェント開発者には嬉しい機能ですね!
    Amazon Bedrock AgentCore Gateway とネイティブで統合されているので、簡単に呼び出すことが可能です。

詳細についてはドキュメントや DevelopersIO にも記事がありますので、是非参考にしてみてください。

マルチモーダルの RAG を構築する

マネージドナレッジベースでは簡単にマルチモーダル対応の RAG を構築できるようになったので、実際に構築をしてみます。

手順1. マネージドナレッジベースを作成する

早速マネージドナレッジベースを作成していきます。
AWSのコンソールにアクセスし、 Amazon Bedrock の管理画面からナレッジベースの画面へ移動し、 Create Managed KB をクリックします。

SCR-20260623-tgrc

KB details

ナレッジベースの名前を入力します。
追加設定では、説明と埋め込みモデルの変更、IAMロールの設定、ベクトルストアの暗号化設定ができます。

SCR-20260623-tijd

データソース

ナレッジベースに接続するデータソースを選択してください。

SCR-20260623-tlac

コンテンツのチャンクと解析

ここは埋め込みモデルを Bedrock embeddings model にした場合は変更ができます。

SCR-20260623-tmfw

Advanced configurations

マルチモーダルの RAG を作成するにあたり下記にチェックを入れる必要があります。

SCR-20260623-ttns

  • Visual content in documents (デフォルトで選択)
    .pdf.docx.ppt.pptx のドキュメント内にある画像からコンテンツを取得する

  • Audio files
    音声ファイルからコンテンツの抽出、インデックス化をする。
    対応しているファイル形式

    • .mp3
    • .wav
    • .m4a
    • .flac
    • .ogg
  • Video files
    動画ファイルからコンテンツの抽出、インデックス化をする。
    対応しているファイル形式

    • .mp4
    • .mov
    • .m4v
  • Max file size
    データストアから同期されるファイルの最大値を設定します。
    ここの最大値はインデックスするファイルの種類に応じて可変します。
    Video files にチェックを入れると最大 10240 MB に設定することができます。

  • Document deletion safeguard
    同期時にインデックス付きコンテンツが誤って大量削除されるのを防ぎます。

各種設定が完了したら ナレッジベースを作成 をクリックしてナレッジベースを作成します。

手順2. データソースにデータを追加する

ナレッジベース作成完了後、データソースに接続した S3 バケットにデータを追加します。

SCR-20260623-ucgl

今回は、画像・音声・動画それぞれがマルチモーダルとして正しく取り込めるかを確認するため、下記の3種類のサンプルデータを用意しました。

  • スライド内に画像を追加したパワーポイント
    スライドの中に Amazon Bedrock の公式ドキュメント (Amazon Bedrock Knowledge Bases) の一部をキャプチャした画像を追加しています。
  • 日本語の読み上げ音声
    日本語で Amazon Bedrock の公式ドキュメント (Amazon Bedrock Knowledge Bases) の一部を読み上げる音声データです。
  • 動画素材
    海辺と小鳥の映像を2つ用意しました。

手順3. データソースの同期を行う

S3 にファイルアップロードが完了したらデータソースの同期を行います。

SCR-20260623-udhf

手順4. ナレッジベースをテストする

同期完了後、ナレッジベースをテストしていきます。
今回はコンソール上から、マルチモーダルのドキュメントの検索ができるか調査します。
該当のナレッジベースの画面から ナレッジベース をクリックします。

SCR-20260623-ufic

埋め込み画像、音声データの検索

ドキュメントが読み込めてることを確認するため、データソースの取得のみで検証します。
Amazon Bedrock に関する質問で音声とスライドデータがヒットするか確認してみます。

SCR-20260623-uiha

正常にスライドと音声データが参照されました。

SCR-20260623-ujag
スライドの参照

SCR-20260623-ukcj
音声データの参照

動画ファイルの検索

動画ファイルについては、 Agentic retrieval with answer generation を利用して検証します。

SCR-20260623-unnh
海辺の映像について

映像についても詳細に情報が認識されていました。

注意点と対策

1. 対応リージョン

マネージドナレッジベースは、現時点では以下の8リージョンでのみ利用可能です。

リージョン 名称
us-east-1 米国東部 (バージニア北部)
us-west-2 米国西部 (オレゴン)
eu-west-1 欧州 (アイルランド)
eu-west-2 欧州 (ロンドン)
eu-central-1 欧州 (フランクフルト)
ap-northeast-1 アジアパシフィック (東京)
ap-southeast-2 アジアパシフィック (シドニー)
us-gov-west-1 AWS GovCloud (米国西部)

2. 埋め込みモデルの選択には制約がある

マネージドナレッジベースでは、サービスマネージドの埋め込みモデルが追加コストなしで利用できます。
これがマネージドの大きな魅力ですが、独自の Bedrock 埋め込みモデルを使いたい場合は、 float32・1024 次元のモデルに限定される点に注意が必要です。
特別な理由がなければ、まずは追加コストのかからないマネージドモデルがおすすめです。

3. データソースの容量上限

マネージドナレッジベースには、以下のサービスクォータが設定されています。

クォータ デフォルト値
ナレッジベースあたりのデータソース数 200
ナレッジベースあたりの生データストレージ容量 10 TB
ナレッジベースあたりの同時インジェスションジョブ数 50

これらは引き上げ申請が可能な調整可能クォータです。
特にマルチモーダルに対応させる場合はデータサイズが大きくなりやすいので、必要に応じてクォータの引き上げの検討が必要そうです。

おわりに

今回は Amazon Bedrock Managed Knowledge Base を使って、マルチモーダル対応の RAG を構築してみました。
画像・音声・動画を含む RAG が手軽に試せるようになった点はとても魅力的です。
ぜひ試してみてください。

参考リンク


国内企業 AI活用実態調査2026 配布中

クラスメソッドが独自に行なったAI診断調査をもとに、企業のAI活用の現在地を調査レポートとしてまとめました。企業規模別の活用度傾向に加え、規模を超えてAI活用を進める企業に共通する取り組みまで、自社の現在地を捉えるためのヒントにぜひ。

国内企業 AI活用実態調査2026

無料でダウンロードする

この記事をシェアする

AWSのお困り事はクラスメソッドへ

関連記事