복원력 및 처리력에 대한 처리량 증가 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

복원력 및 처리력에 대한 처리량 증가

처리량은 모델이 처리하고 반환하는 입력 및 출력의 수와 속도에 의해 정의됩니다. Amazon Bedrock에서 모델을 호출하거나 모델을 호출하는 Amazon Bedrock에서 리소스를 사용하는 경우 모델의 처리량에는 할당량이 적용됩니다. 할당량은 모델과 리전에 따라 달라지며 다음 값을 포함합니다.

Amazon Bedrock은 다음과 같은 유형의 처리량을 제공합니다.

  • 온디맨드 처리량 - 처리량의 표준 옵션입니다. 특정 에서 모델을 호출합니다 AWS 리전. 할당량은 의 Amazon Bedrock 엔드포인트 및 할당량에 정의됩니다 AWS 일반 참조.

  • 온디맨드 리전 간 추론 - 구성된 의 온디맨드 리소스 풀을 추상화하는 추론 프로파일을 호출합니다 AWS 리전. 추론 프로필은 소스 리전에서 시작된 추론 요청을 풀에 구성된 다른 리전으로 라우팅할 수 있습니다. 교차 리전 추론을 사용하면 추론 프로파일에 정의된 리전 간에 모델 호출 요청을 동적으로 라우팅하여 처리량이 증가하고 복원력이 향상됩니다. 사용자 트래픽, 수요 및 리소스 사용률의 라우팅 요인입니다. 자세한 내용은 리전 간 추론을 통한 복원력 개선 단원을 참조하십시오.

  • 프로비저닝된 처리량 - 특정 의 모델에 대한 전용 처리량 수준을 구매하는 것을 포함합니다 AWS 리전. 프로비저닝된 처리량 할당량은 구매하는 모델 유닛 수에 따라 달라집니다. 자세한 내용은 Amazon Bedrock의 프로비저닝된 처리량으로 모델 호출 용량 증가 단원을 참조하십시오.

주제를 선택하여 처리량을 늘리기 위한 옵션에 대해 자세히 알아보세요.