Amazon Bedrock プロンプトキャッシュについてまとめてみた

AWS re:Invent 2024

#Amazon Bedrock

#生成AI

#AWS

森田力

2024.12.16

こんにちは、森田です。
本記事では、re:Invent 2024 で発表された Amazon Bedrock プロンプトキャッシュの詳細をまとめてみました。
https://dev.classmethod.jp/articles/reinvent-bedrock-prompt-caching/
 先にまとめ頻繁に入力するプロンプトをキャッシュしてくれる機能
レイテンシーやコストメリットが期待できる
モデルごとでキャッシュできるトークン数に違いがある
 プロンプトキャッシュモデルへのプロンプト入力をキャッシュしてくれる機能です。
この機能を使うことで同じプロンプトが入力された場合にはキャッシュから情報を再利用できるようになります。
そのため、応答レイテンシーの短縮やコストメリットがあるとされています。
一般的なキャッシュのイメージと同じですね。
 他のプロバイダープロンプトキャッシュの仕組みについては、他のプロバイダーでも提供されています。
https://www.anthropic.com/news/prompt-caching
https://learn.microsoft.com/ja-jp/azure/ai-services/openai/how-to/prompt-caching
https://ai.google.dev/gemini-api/docs/caching?lang=python&hl=ja
 プロンプトキャッシュの仕組みでは、もう少し詳細なプロンプトキャッシュの仕組みをみていきます。
プロンプトキャッシュでは、API側でキャッシュする機構を持ちます。
このキャッシュする機構は、プロンプトがキャッシュされるチェックポイント（キャッシュチェックポイント）で構成されています。
 キャッシュチェックポイントキャッシュチェックポイントでは、
最小トークン数
チェックポイントの最大数
キャッシュできるフィールド
Time To Live (TTL)
を考慮する必要があります。
 最小トークン数キャッシュ可能なトークン数として、最小トークン数が設定されています。
この最小トークン数を超えるプロンプトのみキャッシュできるようになります。
例えば、Claudeでは、最小トークンが大きいため、短いプロンプトについてはキャッシュに載せることができません。
Amazon Nova シリーズ
1トークン

Claude 3.5 Haiku
2,048トークン

Claude 3.5 Sonnet v2
1,024トークン

この最小トークンごとにキャッシュチェックポイントが作成されます。
 チェックポイントの最大数キャッシュできる量にも上限があります。
この上限はチェックポイントの最大数から考えることができます。
Amazon Nova シリーズ
1チェックポイント

Claude
4チェックポイント

Claude 3.5 Haikuでは、4チェックポイント×2,048トークンで8,192トークンをキャッシュすることができます。
 キャッシュできるフィールドモデルによってキャッシュできるフィールドも異なっています。
Amazon Nova シリーズ
system プロンプト

Claude
system、messages、tools プロンプト

 Time To Live (TTL)キャッシュについては、 5 分間の Time To Live (TTL) があります。
この期間中、キャッシュ内のコンテキストは保持されますが、期間中にキャッシュヒットが発生しない場合は、キャッシュは期限切れとなり、リセットされます。
 APIAPIからモデル呼び出しを行う際の各フィールドに追加することで可能です。
converseAPI（messagesフィールドの例）

{
    ...
    "messages": [
        {
                "role": "user",
                "content": [
                    {
                        "image": {
                            "bytes": "asfb14tscve..."
                        }
                    },
                    {
                        "text": "What's is in this image?"
                    },
                    {
>                        "cachePoint": {
>                            "type": "default"
>                        }
                    }
            ]
        }
    ]
    ...
}
 料金現状詳細な料金については、公開されていないです。
When using prompt caching, you're charged at a reduced rate for inference and a different rate for how many tokens are read from and written to the cache.
ドキュメント内に上記の文章があるため、料金体系が通常と異なりそうですが、基本はお安くなりそうな気がしています。
 さいごに現状プレビュー中のため、公開されている情報が少ないですが、ざっくりとまとめてみました。
モデルがプロンプトキャッシュに対応している場合はとりあえず有効化すると、レイテンシーやコストメリットが期待できそうです。
GAのタイミングで正式な料金なども発表されると思うので、その後利用を検討すると良いでしょう。

Amazon Bedrock プロンプトキャッシュについてまとめてみた

先にまとめ

プロンプトキャッシュ

他のプロバイダー

プロンプトキャッシュの仕組み

キャッシュチェックポイント

最小トークン数

チェックポイントの最大数

キャッシュできるフィールド

Time To Live (TTL)

API

料金

さいごに

関連記事

主なカテゴリ

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

お問い合わせ

運営会社