
Amazon Bedrock Knowledge Basesがマルチモーダル検索に正式対応しました #AWSreInvent
AWSが提供するフルマネージドなRAG(Retrieval-Augmented Generation)サービスであるAmazon Bedrock Knowledge Basesがテキストだけでなく、画像、音声、動画といった マルチモーダルデータ の検索を正式にサポートするようになりました。
「マルチモーダル」と一括りにされていますが、中身が全く異なる2つのアプローチがユーザーに委ねられています
- (前処理 がマルチモーダル)Bedrock Data Automation(BDA)でテキスト化してテキスト埋め込みモデルを利用したテキスト系検索
- (埋め込み がマルチモーダル)マルチモーダル埋め込みモデルを利用した視覚的な画像系検索

コンソールでは、以下のように表現されています。
For multimodal content, choose between Nova Multimodal Embeddings for visual similarity search and image-based queries, or Bedrock Data Automation for text-based processing of multimedia content through transcription and content extraction.
Bedrock Knowledge Basesのエンタープライズ検索での適用範囲が大幅に広がりました。
1. テキスト系検索(前処理がマルチモーダル)
テキスト系検索では、画像、動画、音声といった様々なコンテンツ(モード)をテキストという中間表現に変換してから、通常のテキスト埋め込みモデルを用います。
Bedrock Knowledge Basesでは、前処理(パーサー)としてBedrock Data Automation(BDA)が利用されます。
前処理後には、以下の様な情報が抽出されます
- 画像・チャートのディスクリプション
- オーディオ・ビデオの文字起こし
- ビデオの要約
2. 画像系検索(埋め込みがマルチモーダル)
テキストだけでなく、画像、動画、音声といった様々なコンテンツ(モード)に対して埋め込みを生成できるモデルをマルチモーダルモデルと呼びます。
画像系検索では、AWSが2025年10月末に発表されたマルチモーダルな埋め込みモデルAmazon Nova Multimodal Embeddingsが利用されます。
マルチモーダル埋め込みモデルの世界では、テキストも画像も等価に扱われるため、画像をテキストで検索したり、画像で画像を検索したりすることが可能です。
ユースケースごとの使い分け
- テキストコンテンツをテキストで検索したい → テキスト埋め込みモデル
- (NEW)PDF・音声・動画の文字起こしや要約で検索したい → BDAで前処理 + テキスト埋め込みモデル
- (NEW)画像のような視覚的な情報を検索したい → Novaマルチモーダル埋め込みモデル
マルチモーダルGAまでの道
- 2024/11 : Amazon Bedrock Knowledge Basesのマルチモーダル検索がプレビュー公開
- 2025/03 : Amazon Bedrock Data Automation(BDA)が正式公開
- 2025/10 : Amazon Nova Multimodal Embeddingsが公開
- 2025/11 : Amazon Bedrock Knowledge Basesマルチモーダル検索が正式公開
最後に
Bedrock Knowledge Basesがマルチモーダル検索に正式対応しました。
「マルチモーダル」と一括りにされていますが、ハイレベルな1サービスとして提供せず、ユースケースに合わせて
- テキストベースの検索
- 視覚的な検索
とパイプラインを明示的に指定させるのは、Amazonらしいなぁと思いました。









