【セッションレポート】生成AIアプリケーションを最適化するインメモリセマンティックキャッシュ(AWS-45) #AWSSummit

【セッションレポート】生成AIアプリケーションを最適化するインメモリセマンティックキャッシュ(AWS-45) #AWSSummit

Clock Icon2025.07.01

AWS Summit Japan 2025 の Day2 で発表された以下のセッションのレポート記事です。
生成 AI アプリケーションを最適化するインメモリセマンティックキャッシュ(AWS-45)

セッションの概要

生成 AI により顧客体験は大きく進化しました。一方、生成 AI を用いるシステムでは、パフォーマンスとコスト最適化について考慮すべき新しいベストプラクティスが生まれています。このセッションでは、Amazon MemoryDB を使用した耐久性セマンティックキャッシュにより、生成 AI ワークロードのレイテンシーを数秒から数十ミリ秒に削減し、同時に基盤モデルのコストを大幅に削減する方法を解説します。

※セッションページより引用

セッションレポート

主なポイント

生成AIの課題

  • ユーザー数増加に伴うスケーリングコストの増大
  • レスポンス速度の低下

セマンティックキャッシュとは?

  • セマンティック(semantic): "意味的な" という意味
  • 意味的に類似したクエリに対してもキャッシュを活用できる仕組み
  • ベクトル埋め込みを用いて、意味的に近いリクエストを検索・応答

耐久性セマンティックキャッシュの仕組み

  1. クエリをベクトルに変換(embedding)
  2. 耐久性セマンティックキャッシュに確認
  3. 類似ベクトルを検索し、意味的に近いキャッシュを探索
  • キャッシュがヒットした場合はキャッシュを返却 [終了]
  • キャッシュがヒットしない場合は、モデルにリクエスト [4へ]
  1. キャッシュヒットしなかった場合: モデルからのレスポンスをキャッシュとして保存し、レスポンスを返却

ベクトル埋め込みとは?

  • 単語や文書、画像などの意味的な特徴を数値ベクトルに変換する技術
  • 例:「book」という単語は文脈により「本」や「予約」として解釈される
  • 意味的に近いもの同士が近いベクトル空間上に配置される

セマンティックキャッシュの効果

  • キャッシュヒット率25%でLLMコスト24%削減
    • キャッシュヒット率がほぼそのままLLMコストの削減に直結している
  • キャッシュヒット率が高いほど全体のコスト削減効果が大きい
  • iterate.aiでは70%のヒット率で大幅なコスト・レイテンシ削減を実現

セマンティックキャッシュにおける検索の技術要素

項目 説明
完全一致検索 全ベクトルと比較、高精度だが高レイテンシ高コスト
近似最近傍(ANN) 全ては検索せず、類似ベクトルを検索。
ANNにおける再現率 ANNでの検索結果の品質指標。コストとのトレードオフになりやすい
HNSW 高速・高精度なインデックス手法。再現率のチューニングに使用するパラメータの1つ
radius指定 類似度の閾値を設定し、キャッシュヒットの精度を調整
タグフィルタ 地域や属性で検索対象を絞り、精度と速度を向上

MemoryDBの特徴と利点

  • Redis OSS / Valkey 互換
    • RedisOSS → Valkey移行で書き込みコスト80%削減
    • Valkey には10TB/月の無料枠あり
  • 高い耐久性(トランザクションログ + マルチAZレプリカ)
  • 高速なベクトル検索とインデックス作成(HNSW)
    • MemoryDBはインメモリのため、再現率の向上を図った際にレイテンシなどパフォーマンスの低下が起きにくい
  • radius指定やタグによるフィルタリングで精度向上

デモ結果(例)

クエリ レイテンシ
最古の国立公園は? 1.3秒(初回)
最も古い国立公園は? 79ms(キャッシュヒット)
日本で最古の国立公園は? 2.3秒(フィルタ付きのため初回)
日本で最も古い国立公園は? 68ms(キャッシュヒット)

意味的に近いキャッシュがヒットし、返却されていることが確認できた。

まとめ

生成AIにセマンティックキャッシュを組み合わせることで、生成AIのスケーラビリティとコスト効率を大幅に改善可能。特に高いキャッシュヒット率と低レイテンシを実現するMemoryDBは、生成AIアプリケーションにおけるキャッシュレイヤーとして非常に有用。

感想

生成AIの成長は目まぐるしいですが、サービスに組み込むことを検討する場合に依然として料金の部分が課題となっています。今回のセッションでは、そのコストの部分を「意味的に類似したキャッシュ」を用いることで大きく削減できることや、再現率とのチューニングについて必要なパラメータも理解することができました。今後、生成AIが発展していく中でコストの最適化は重要指標の1つとなっていくため、このセッションの知識は今後多くのケースで役立つと感じました。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.