쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

더 빠른 모델 추론을 위한 프롬프트 캐싱

포커스 모드
더 빠른 모델 추론을 위한 프롬프트 캐싱 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

참고

Amazon Bedrock 프롬프트 캐싱은 현재 일부 고객만 사용할 수 있습니다. 미리 보기 참여에 대한 자세한 내용은 Amazon Bedrock 프롬프트 캐싱을 참조하세요.

프롬프트 캐싱은 Amazon Bedrock에서 모델 추론을 가져오는 동안 응답 지연 시간을 줄이기 위해 사용할 수 있는 선택적 기능입니다. 모델이 매번 입력 및 컴퓨팅 응답을 완전히 처리하는 대신 캐시의 컨텍스트를 재사용할 수 있도록 캐시에 대화의 일부를 추가할 수 있습니다.

프롬프트 캐싱은 여러 쿼리에 자주 재사용되는 길고 반복적인 컨텍스트가 있는 워크로드가 있는 경우에 도움이 될 수 있습니다. 예를 들어 사용자가 문서를 업로드하고 이에 대해 질문할 수 있는 챗봇이 있는 경우 사용자가 입력을 제공할 때마다 모델이 문서를 처리하는 데 시간이 많이 걸릴 수 있습니다. 프롬프트 캐싱을 사용하면 대화 컨텍스트에서 문서를 캐싱하여 더 빠른 응답을 얻을 수 있습니다.

프롬프트 캐싱을 사용하는 경우 추론에 대해 감소된 요금이 부과되고 캐시에서 읽고 쓰는 토큰 수에 대해 다른 요금이 부과됩니다. 자세한 정보는 Amazon Bedrock 요금 페이지를 참조하세요.

작동 방법

프롬프트 캐싱을 사용하도록 선택하면 Amazon Bedrock은 캐시 체크포인트로 구성된 캐시를 생성합니다. 이는 해당 지점까지 이어지는 프롬프트의 전체 접두사가 캐시되는 체크포인트입니다. 후속 요청에서 모델은 캐시된 정보를 다시 처리하는 대신 검색할 수 있으므로 응답 시간이 단축되고 비용이 절감됩니다.

캐시 체크포인트에는 사용 중인 특정 모델에 따라 최소 및 최대 토큰 수가 있습니다. 총 프롬프트 접두사가 최소 토큰 수를 충족하는 경우에만 캐시 체크포인트를 생성할 수 있습니다. 예를 들어 Anthropic Claude 3.5 Sonnet v2 모델에는 캐시 체크포인트에 대해 1,024개의 토큰이 필요합니다. 프롬프트와 모델의 응답이 토큰 1,024개에 도달한 후 첫 번째 체크포인트를 생성할 수 있습니다. 총 토큰 수가 2,048개에 도달한 후 두 번째 체크포인트를 생성할 수 있습니다. 최소 토큰 수를 충족하지 않고 캐시 체크포인트를 추가하려고 해도 추론 요청은 여전히 성공하지만 체크포인트는 캐시에 추가되지 않습니다.

캐시에는 성공한 캐시 적중마다 재설정되는 TTL(Time To Live)이 5분 동안 있습니다. 이 기간 동안 캐시의 컨텍스트는 보존됩니다. TTL 기간 내에 캐시 적중이 발생하지 않으면 캐시가 만료됩니다.

캐시가 만료되면 해당 시점까지 이전에 캐시된 컨텍스트를 새 캐시의 첫 번째 캐시 체크포인트로 재사용할 수 있습니다.

지원되는 모델에 대해 Amazon Bedrock에서 모델 추론을 가져올 때마다 프롬프트 캐싱을 사용할 수 있습니다. 프롬프트 캐싱은 다음 Amazon Bedrock 기능에서 지원됩니다.

Converse 및 ConverseStream APIs

프롬프트에서 캐시 체크포인트를 지정하는 모델과 대화를 진행할 수 있습니다.

InvokeModel 및 InvokeModelWithResponseStream APIs

프롬프트 캐싱을 활성화하고 캐시 체크포인트를 지정하는 단일 프롬프트 요청을 제출할 수 있습니다.

Amazon Bedrock Agents

에이전트를 생성하거나 업데이트할 때 프롬프트 캐싱을 활성화하거나 비활성화하도록 선택할 수 있습니다. Amazon Bedrock은 프롬프트 캐싱 및 체크포인트 동작을 자동으로 처리합니다.

APIs는 프롬프트 캐시에 대한 가장 유연하고 세분화된 제어를 제공합니다. 프롬프트 내에서 각 개별 캐시 체크포인트를 설정할 수 있습니다. 특정 모델에 허용되는 최대 캐시 체크포인트 수까지 더 많은 캐시 체크포인트를 생성하여 캐시에를 추가할 수 있습니다. 자세한 내용은 지원되는 모델, 리전 및 제한 단원을 참조하십시오.

Amazon Bedrock Agents와 같은 다른 기능과 함께 프롬프트 캐싱을 사용하려면 에이전트를 생성하거나 업데이트할 때 프롬프트 캐싱 필드를 활성화하면 됩니다. 프롬프트 캐싱을 활성화하면 Amazon Bedrock에서 캐싱 동작 및 캐시 체크포인트를 자동으로 처리합니다.

지원되는 모델, 리전 및 제한

다음 표에는 지원되는 각 모델에 대해 캐시 체크포인트를 허용하는 지원되는 AWS 리전토큰 최소 수, 최대 캐시 체크포인트 수 및 필드가 나열되어 있습니다.

모델 이름 모델 ID 프롬프트 캐싱을 지원하는 리전 캐시 체크포인트당 최소 토큰 수 최대 캐시 체크포인트 수 캐시 체크포인트를 추가할 수 있는 필드

Amazon Nova Micro v1

amazon.nova-micro-v1:0

미국 동부(버지니아 북부)

미국 서부(오레곤)

1

1

system

Amazon Nova Lite v1

amazon.nova-lite-v1:0

미국 동부(버지니아 북부)

미국 서부(오레곤)

1

1

system

Amazon Nova Pro v1

amazon.nova-pro-v1:0

미국 동부(버지니아 북부)

미국 서부(오레곤)

1

1

system

Claude 3.5 하이쿠

anthropic.claude-3-5-haiku-20241022-v1:0

정규 추론: 미국 서부(오레곤)

리전 간 추론:

  • 미국 동부(버지니아 북부)

  • 미국 서부(오레곤)

2,048

4

system, messagestools

Claude 3.5 Sonnet v2

anthropic.claude-3-5-sonnet-20241022-v2:0

정규 추론: 미국 서부(오레곤)

리전 간 추론:

  • 미국 동부(버지니아 북부)

  • 미국 서부(오레곤)

1,024

4

system, messagestools

시작

다음 섹션에서는 Amazon Bedrock을 통해 모델과 상호 작용하는 각 방법에 프롬프트 캐싱 기능을 사용하는 방법에 대한 간략한 개요를 보여줍니다.

Converse API는 멀티턴 대화에서 프롬프트 캐싱을 구현하기 위한 유연하고 고급 옵션을 제공합니다. 각 모델의 프롬프트 요구 사항에 대한 자세한 내용은 이전 섹션을 참조하세요지원되는 모델, 리전 및 제한.

요청 예제

다음 예제에서는 Converse API에 대한 요청의 messages, system또는 tools 필드에 있는 캐시 체크포인트 세트를 보여줍니다. 지정된 요청에 대해 이러한 위치에 체크포인트를 배치할 수 있습니다. 예를 들어 Claude 3.5 Sonnet v2 모델에 요청을 보내는 경우에 캐시 체크포인트 2개,에 캐시 체크포인트 messages1개system,에 캐시 체크포인트 1개를 배치할 수 있습니다tools. Converse API 요청 구성 및 전송에 대한 자세한 내용과 예제는 섹션을 참조하세요Converse API 작업과 대화 수행.

messages checkpoints

이 예제에서 첫 번째 image 필드는 모델에 이미지를 제공하고 두 번째 text 필드는 모델에 이미지를 분석하도록 요청합니다. cachePoint content 객체의 이전 토큰 수가 모델의 최소 토큰 수를 충족하는 한 캐시 체크포인트가 생성됩니다.

... "messages": [ { "role": "user", "content": [ { "image": { "bytes": "asfb14tscve..." } }, { "text": "What's is in this image?" }, { "cachePoint": { "type": "default" } } ] } ] ...
system checkpoints

이 예제에서는 text 필드에 시스템 프롬프트를 제공합니다. 그런 다음 cachePoint 필드를 추가하여 시스템 프롬프트를 캐싱할 수 있습니다.

... "system": [ { "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. " }, { "cachePoint": { "type": "default" } } ], ...
tools checkpoints

이 예제에서는 toolSpec 필드에 도구 정의를 제공합니다. (또는 이전에 정의한 도구를 호출할 수 있습니다. 자세한 내용은 섹션을 참조하세요Converse API를 사용하여 도구 호출.) 그런 다음 cachePoint 필드를 추가하여 도구를 캐싱할 수 있습니다.

... toolConfig={ "tools": [ { "toolSpec": { "name": "top_song", "description": "Get the most popular song played on a radio station.", "inputSchema": { "json": { "type": "object", "properties": { "sign": { "type": "string", "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP." } }, "required": [ "sign" ] } } } }, { "cachePoint": { "type": "default" } } ] } ...

Converse API의 모델 응답에는 프롬프트 캐싱과 관련된 두 개의 새 필드가 포함되어 있습니다. CacheReadInputTokensCacheWriteInputTokens 값은 캐시에서 읽은 토큰 수와 이전 요청으로 인해 캐시에 기록된 토큰 수를 알려줍니다. 이는 전체 모델 추론 비용보다 낮은 요금으로 Amazon Bedrock에서 청구하는 값입니다.

Converse API

Converse API는 멀티턴 대화에서 프롬프트 캐싱을 구현하기 위한 유연하고 고급 옵션을 제공합니다. 각 모델의 프롬프트 요구 사항에 대한 자세한 내용은 이전 섹션을 참조하세요지원되는 모델, 리전 및 제한.

요청 예제

다음 예제에서는 Converse API에 대한 요청의 messages, system또는 tools 필드에 있는 캐시 체크포인트 세트를 보여줍니다. 지정된 요청에 대해 이러한 위치에 체크포인트를 배치할 수 있습니다. 예를 들어 Claude 3.5 Sonnet v2 모델에 요청을 보내는 경우에 캐시 체크포인트 2개,에 캐시 체크포인트 messages1개system,에 캐시 체크포인트 1개를 배치할 수 있습니다tools. Converse API 요청 구성 및 전송에 대한 자세한 내용과 예제는 섹션을 참조하세요Converse API 작업과 대화 수행.

messages checkpoints

이 예제에서 첫 번째 image 필드는 모델에 이미지를 제공하고 두 번째 text 필드는 모델에 이미지를 분석하도록 요청합니다. cachePoint content 객체의 이전 토큰 수가 모델의 최소 토큰 수를 충족하는 한 캐시 체크포인트가 생성됩니다.

... "messages": [ { "role": "user", "content": [ { "image": { "bytes": "asfb14tscve..." } }, { "text": "What's is in this image?" }, { "cachePoint": { "type": "default" } } ] } ] ...
system checkpoints

이 예제에서는 text 필드에 시스템 프롬프트를 제공합니다. 그런 다음 cachePoint 필드를 추가하여 시스템 프롬프트를 캐싱할 수 있습니다.

... "system": [ { "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. " }, { "cachePoint": { "type": "default" } } ], ...
tools checkpoints

이 예제에서는 toolSpec 필드에 도구 정의를 제공합니다. (또는 이전에 정의한 도구를 호출할 수 있습니다. 자세한 내용은 섹션을 참조하세요Converse API를 사용하여 도구 호출.) 그런 다음 cachePoint 필드를 추가하여 도구를 캐싱할 수 있습니다.

... toolConfig={ "tools": [ { "toolSpec": { "name": "top_song", "description": "Get the most popular song played on a radio station.", "inputSchema": { "json": { "type": "object", "properties": { "sign": { "type": "string", "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP." } }, "required": [ "sign" ] } } } }, { "cachePoint": { "type": "default" } } ] } ...

이 예제에서 첫 번째 image 필드는 모델에 이미지를 제공하고 두 번째 text 필드는 모델에 이미지를 분석하도록 요청합니다. cachePoint content 객체의 이전 토큰 수가 모델의 최소 토큰 수를 충족하는 한 캐시 체크포인트가 생성됩니다.

... "messages": [ { "role": "user", "content": [ { "image": { "bytes": "asfb14tscve..." } }, { "text": "What's is in this image?" }, { "cachePoint": { "type": "default" } } ] } ] ...

Converse API의 모델 응답에는 프롬프트 캐싱과 관련된 두 개의 새 필드가 포함되어 있습니다. CacheReadInputTokensCacheWriteInputTokens 값은 캐시에서 읽은 토큰 수와 이전 요청으로 인해 캐시에 기록된 토큰 수를 알려줍니다. 이는 전체 모델 추론 비용보다 낮은 요금으로 Amazon Bedrock에서 청구하는 값입니다.

InvokeModel API를 호출하면 프롬프트 캐싱이 기본적으로 활성화됩니다. Converse API에 대한 이전 예제와 마찬가지로 요청 본문의 어느 시점에서든 캐시 체크포인트를 설정할 수 있습니다.

다음 예제에서는 Anthropic Claude 3.5 Sonnet v2 모델에 대한 InvokeModel 요청의 본문을 구성하는 방법을 보여줍니다. InvokeModel 요청에 대한 본문의 정확한 형식과 필드는 선택한 모델에 따라 다를 수 있습니다. 다양한 모델에 대한 요청 및 응답 본문의 형식과 내용을 보려면 섹션을 참조하세요파운데이션 모델의 추론 요청 파라미터 및 응답 필드.

body={ "anthropic_version": "bedrock-2023-05-31", "system":"Reply concisely", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Describe the best way to learn programming." }, { "type": "text", "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.", "cache_control": { "type": "ephemeral" } } ] } ], "max_tokens": 2048, "temperature": 0.5, "top_p": 0.8, "stop_sequences": [ "stop" ], "top_k": 250 }

InvokeModel 요청 전송에 대한 자세한 내용은 섹션을 참조하세요InvokeModel을 사용하여 단일 프롬프트 제출.

InvokeModel API를 호출하면 프롬프트 캐싱이 기본적으로 활성화됩니다. Converse API에 대한 이전 예제와 마찬가지로 요청 본문의 어느 시점에서든 캐시 체크포인트를 설정할 수 있습니다.

다음 예제에서는 Anthropic Claude 3.5 Sonnet v2 모델에 대한 InvokeModel 요청의 본문을 구성하는 방법을 보여줍니다. InvokeModel 요청에 대한 본문의 정확한 형식과 필드는 선택한 모델에 따라 다를 수 있습니다. 다양한 모델에 대한 요청 및 응답 본문의 형식과 내용을 보려면 섹션을 참조하세요파운데이션 모델의 추론 요청 파라미터 및 응답 필드.

body={ "anthropic_version": "bedrock-2023-05-31", "system":"Reply concisely", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Describe the best way to learn programming." }, { "type": "text", "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.", "cache_control": { "type": "ephemeral" } } ] } ], "max_tokens": 2048, "temperature": 0.5, "top_p": 0.8, "stop_sequences": [ "stop" ], "top_k": 250 }

InvokeModel 요청 전송에 대한 자세한 내용은 섹션을 참조하세요InvokeModel을 사용하여 단일 프롬프트 제출.

Amazon Bedrock 콘솔의 채팅 플레이그라운드에서 프롬프트 캐싱 옵션을 켤 수 있으며 Amazon Bedrock은 자동으로 캐시 체크포인트를 생성합니다.

의 지침에 따라 Amazon Bedrock 플레이그라운드에서 프롬프트를 플레이그라운드를 사용하여 콘솔에서 응답 생성 시작합니다. 지원되는 모델의 경우 플레이그라운드에서 프롬프트 캐싱이 자동으로 켜집니다. 그러나 그렇지 않은 경우 다음을 수행하여 프롬프트 캐싱을 켭니다.

  1. 왼쪽 패널에서 구성 메뉴를 엽니다.

  2. 프롬프트 캐싱 토글을 켭니다.

  3. 프롬프트를 실행합니다.

결합된 입력 및 모델 응답이 체크포인트에 필요한 최소 토큰 수(모델에 따라 다름)에 도달하면 Amazon Bedrock이 자동으로 첫 번째 캐시 체크포인트를 생성합니다. 채팅을 계속하면 최소 토큰 수에 도달할 때마다 모델에 허용되는 최대 체크포인트 수까지 새 체크포인트가 생성됩니다. 다음 스크린샷과 같이 프롬프트 캐싱 토글 옆에 있는 캐시 체크포인트 보기를 선택하여 언제든지 캐시 체크포인트를 볼 수 있습니다.

UI는 Amazon Bedrock 텍스트 플레이그라운드에서 프롬프트 캐싱을 전환합니다.

플레이그라운드 응답에서 캐싱 지표 팝업( The metrics icon shown in model responses when prompt caching is enabled. )을 보면 모델과의 각 상호 작용으로 인해 캐시에서 읽고 쓰는 토큰 수를 볼 수 있습니다.

캐시에서 읽고 캐시에 쓴 토큰 수를 보여주는 캐싱 지표 상자입니다.

대화 중에 프롬프트 캐싱 토글을 끄면 모델과 계속 채팅할 수 있습니다.

Amazon Bedrock 콘솔의 채팅 플레이그라운드에서 프롬프트 캐싱 옵션을 켤 수 있으며 Amazon Bedrock은 자동으로 캐시 체크포인트를 생성합니다.

의 지침에 따라 Amazon Bedrock 플레이그라운드에서 프롬프트를 플레이그라운드를 사용하여 콘솔에서 응답 생성 시작합니다. 지원되는 모델의 경우 플레이그라운드에서 프롬프트 캐싱이 자동으로 켜집니다. 그러나 그렇지 않은 경우 다음을 수행하여 프롬프트 캐싱을 켭니다.

  1. 왼쪽 패널에서 구성 메뉴를 엽니다.

  2. 프롬프트 캐싱 토글을 켭니다.

  3. 프롬프트를 실행합니다.

결합된 입력 및 모델 응답이 체크포인트에 필요한 최소 토큰 수(모델에 따라 다름)에 도달하면 Amazon Bedrock이 자동으로 첫 번째 캐시 체크포인트를 생성합니다. 채팅을 계속하면 최소 토큰 수에 도달할 때마다 모델에 허용되는 최대 체크포인트 수까지 새 체크포인트가 생성됩니다. 다음 스크린샷과 같이 프롬프트 캐싱 토글 옆에 있는 캐시 체크포인트 보기를 선택하여 언제든지 캐시 체크포인트를 볼 수 있습니다.

UI는 Amazon Bedrock 텍스트 플레이그라운드에서 프롬프트 캐싱을 전환합니다.

플레이그라운드 응답에서 캐싱 지표 팝업( The metrics icon shown in model responses when prompt caching is enabled. )을 보면 모델과의 각 상호 작용으로 인해 캐시에서 읽고 쓰는 토큰 수를 볼 수 있습니다.

캐시에서 읽고 캐시에 쓴 토큰 수를 보여주는 캐싱 지표 상자입니다.

대화 중에 프롬프트 캐싱 토글을 끄면 모델과 계속 채팅할 수 있습니다.

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.