기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
다중 컨테이너 엔드포인트 오토 스케일링
InvocationsPerInstance
지표를 사용하여 멀티컨테이너 엔드포인트에 대한 자동 조정을 구성하려면 각 컨테이너의 모델이 각 추론 요청에서 유사한 CPU 사용률과 지연 시간을 나타내는 것이 좋습니다. 멀티컨테이너 엔드포인트에 대한 트래픽이 낮은 CPU 사용률 모델에서 높은 CPU 사용률 모델로 전환되지만 전체 통화 볼륨이 동일하게 유지되는 경우 엔드포인트가 확장되지 않고 높은 CPU 사용률 모델에 대한 모든 요청을 처리하기에 충분한 인스턴스가 없을 수 있으므로 이 작업이 권장됩니다. 엔드포인트 오토 스케일링에 대한 자세한 내용은 Amazon SageMaker 모델의 자동 조정 단원을 참조하세요.