지역 간 추론을 통한 복원력 향상 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

지역 간 추론을 통한 복원력 향상

온디맨드 모드에서 모델 추론을 실행하는 경우 서비스 할당량 또는 사용량이 가장 많은 시간대에 요청이 제한될 수 있습니다. 지역 간 추론을 사용하면 다양한 환경에서 컴퓨팅을 활용하여 예상치 못한 트래픽 폭증을 원활하게 관리할 수 있습니다. AWS 리전. 지역 간 추론을 사용하면 트래픽을 여러 곳으로 분산할 수 있습니다. AWS 리전이를 통해 수요가 가장 많은 기간 동안 처리량을 높이고 복원력을 강화할 수 있습니다.

지역 간 추론을 사용하려면 모델 추론을 실행할 때 추론 프로필의 ID를,, Converse 또는 ConverseStream요청을 보낼 modelId 때와 같이 지정하여 추론 프로필을 지정합니다. 는 구성된 온디맨드 리소스 풀을 추상화한 것입니다. InvokeModelInvokeModelWithResponseStream AWS 리전. 추론 프로필은 소스 지역에서 시작된 추론 요청을 풀에 구성된 다른 지역으로 라우팅할 수 있습니다. 지역 간 추론을 사용하면 추론 프로필에 정의된 지역 전체에 모델 호출 요청을 동적으로 라우팅하여 처리량이 증가하고 복원력이 향상됩니다. 사용자 트래픽, 수요 및 리소스 사용률의 라우팅 요소. 요청은 요청이 시작된 지역에서 처리됩니다.

현재 다음과 같은 기능에 대해 지역 간 추론을 사용할 수 있습니다.

또한 프로비저닝된 처리량을 구매하여 모델의 처리량을 늘릴 수도 있습니다. 현재 추론 프로필은 프로비저닝된 처리량을 지원하지 않습니다.

지역 간 추론에 대한 다음 정보를 참고하세요.

  • 지역 간 추론 사용에 따른 추가 라우팅 비용은 없습니다. 가격은 추론 프로필을 호출한 지역을 기준으로 계산됩니다. 요금에 대한 자세한 내용은 Amazon Bedrock 요금을 참조하십시오.

  • 교차 리전 추론을 사용할 경우 처리량은 추론 프로필이 속한 리전에 할당된 할당량의 최대 두 배에 달할 수 있습니다. 처리량 증가는 추론 프로필을 통해 수행된 호출에만 적용되며, 지역 내 모델 호출 요청을 선택하는 경우에는 일반 할당량이 계속 적용됩니다. 예를 들어, 미국을 호출하는 경우 Anthropic Claude 3 Sonnet 미국 동부 (버지니아 북부) (us-east-1) 의 추론 프로필에서는 처리량이 분당 최대 1,000개의 요청과 분당 2,000,000개의 토큰에 도달할 수 있습니다. 온디맨드 처리량의 기본 할당량을 보려면 Service Quotas 콘솔의 런타임 할당량 섹션을 참조하거나 Service Quotas Amazon Bedrock의 할당량 콘솔을 사용하세요.

  • 리전 간 추론 요청은 사용된 추론 프로필의 일부인 리전 내에 보관됩니다. 예를 들어, EU 추론 프로필을 사용한 요청은 EU 지역 내에 보관됩니다.

지역 간 추론에 대해 자세히 알아보려면 Amazon Bedrock에서 지역 간 추론 시작하기를 참조하십시오.