블로그 릴레이 - Amazon Bedrock의 프롬프트 캐싱 기능 알아보기

블로그 릴레이 - Amazon Bedrock의 프롬프트 캐싱 기능 알아보기

Clock Icon2025.05.22

안녕하세요! 제조 비지니스 테크놀로지부의 이병현입니다.

본 블로그는 당사의 한국어 블로그 릴레이의 2025년 16번 째 블로그입니다.
이번 블로그의 주제는 「Amazon Bedrock의 프롬프트 캐싱 기능 알아보기」 입니다.

프롬프트 캐싱이란?

프롬프트 캐싱이란, LLM에서 사용되는 프롬프트를 캐싱하는 기능입니다.

사용자의 요청에 필요한 응답 중, 컨텍스트 내에 유사한 내용이 있다면 해당 내용을 이용하여 조금 더 빠르고 적은 비용으로 사용자에게 필요한 응답을 제공할 수 있습니다.

긴 내용의 프롬프트나, 에이전트 도구 등 컨텍스트 내에 여러 차례 사용될 수 있는 경우들에 유용하게 적용할 수 있습니다.

프롬프트 캐싱에 관한 추가적인 내용은 아래 링크의 문서를 참고해 주세요.

Antropic | 프롬프트 캐싱

Amazon Bedrock의 프롬프트 캐싱

Amazon Bedrock에서 프롬프트 캐싱을 여러 방법을 통해 사용할 수 있습니다.

API로 모델을 호출하여 사용하거나, 플레이그라운드에서 쉽게 설정하여 사용해 볼 수도 있습니다.

프롬프트 캐싱을 직접 사용해 보기에 앞서, 몇 가지 알아 두어야 할 사항이 있습니다.

모델마다 다르지만, 최소한의 토큰 수 (1,024 토큰)가 있어야 캐싱이 되어 체크포인트가 생성되며, 캐싱은 TTL 5분이라는 제약이 있습니다.

이외에도, 현재 (2025년 5월) 자로 사용할 수 있는 모델은 Antropic의 Claude와 Amazon의 Nova 로 자세한 버전은 아래와 같습니다.

anthropic.claude-3-7-sonnet-20250219-v1:0
anthropic.claude-3-5-haiku-20241022-v1:0
anthropic.claude-3-5-sonnet-20241022-v2:0
amazon.nova-micro-v1:0
amazon.nova-lite-v1:0
amazon.nova-pro-v1:0

자세한 사항은 아래 링크의 문서를 참고해 주세요.

AWS | Prompt caching for faster model inference

또한, 비용적으로도 캐싱에 대해 추가적인 비용이 발생합니다. 아래는 미국 리전의 예시입니다.

スクリーンショット 2025-05-22 19.34.01

자세한 요금은 아래의 링크를 참고해 주세요.

AWS | Amazon Bedrock Pricing

그러면 실제로 사용해 보겠습니다.

실제로 사용해 보기

API와 플레이그라운드에서 프롬프트 캐싱을 사용할 수 있습니다. 본 블로그는 플레이그라운드에서 사용해 보겠습니다.

Amazon Bedrock 서비스로 이동하여 플레이그라운드의 Chat / Text 메뉴로 이동합니다.

スクリーンショット 2025-05-22 19.26.49

모델을 선택해 주겠습니다. 왼쪽 위의 모델 선택 버튼을 눌러 모델을 선택할 수 있습니다.

スクリーンショット 2025-05-22 19.29.15

그러면 위와 같은 창이 뜨는데요. 저는 Antropic의 Claude 3.7 Sonnet v1을 사용하겠습니다. 참고로, 미국 버지니아 북부 리전을 사용하였습니다.

모델을 선택하고 나면 해당 모델의 옵션을 변경할 수 있습니다. 왼쪽의 옵션 사이드바에서 아래로 스크롤 하면 프롬프트 캐싱 기능을 확인할 수 있습니다.

スクリーンショット 2025-05-22 19.36.50

비교 기능을 사용하여 같은 모델에서 프롬프트 캐싱을 사용한 모델과 아닌 모델이 어떤 식으로 동작하는 지 확인해 보겠습니다.

スクリーンショット 2025-05-22 19.41.04

왼쪽은 프롬프트 캐싱 기능을 사용하고, 오른쪽은 사용하지 않는 방식으로 확인해 보겠습니다.

몇 가지 요청을 한후에 프롬프트 캐싱의 체크포인트를 확인해 보겠습니다.

スクリーンショット 2025-05-22 19.55.07

スクリーンショット 2025-05-22 19.53.35

スクリーンショット 2025-05-22 19.53.27

체크포인트에 이전 응답이 잘 저장되어 있는 걸 확인할 수 있었습니다.

그러면 연관성이 있는 요청을 하여 프롬프트 캐싱이 되어 있는 왼쪽이 더 빠른 응답 속도가 나오는지 확인해 보겠습니다.

スクリーンショット 2025-05-22 19.58.05

결과를 보면 왼쪽 부터 인풋 토큰 수, 아웃풋 토큰 수, 응답 시간입니다.

프롬프트 캐싱이 적용된 모델은 캐싱이 적용되어 인풋 토큰 수가 적어지며, 응답 시간 또한 줄어든 것을 확인할 수 있었습니다.

마무리

위에서 사용해 본 것처럼 프롬프트 캐싱은 컨텍스트 내에 유사한 내용을 사용자가 요청할 가능성이 있는 경우, 유용하게 사용할 수 있는 것을 알 수 있습니다.

캐싱 기능을 위해 비용이 추가로 발생할 수 있지만, 컨텍스트 내에 유사한 요청과 응답이 많을 경우나 속도가 중요한 경우 고려해볼 수 있습니다.

모든 경우에 유용하여 무조건 써야하는 기능은 아니지만, 필요에 따라 적절하게 사용한다면 단점보다 장점이 큰 매력적인 기능인 것 같습니다.


이상, 한국어 블로그 릴레이의 2025년 16번 째 블로그 「Amazon Bedrock의 프롬프트 캐싱 기능 알아보기」 편이었습니다. 다음 2025년 17번 째 번째 블로그 릴레이는 5월 다섯째 주에 공개됩니다.

끝까지 읽어주셔서 감사합니다! 이상,제조 비지니스 테크놀로지부의 이병현이었습니다.

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.