기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
InvocationsPerInstance
지표를 사용하여 다중 컨테이너 엔드포인트의 오토 스케일링을 구성하려는 경우 각 컨테이너의 모델이 각 추론 요청에서 유사한 CPU 사용률과 지연 시간을 나타내는 것이 좋습니다. 다중 컨테이너 엔드포인트에 대한 트래픽이 낮은 CPU 사용률 모델에서 높은 CPU 사용률 모델로 전환되지만 전체 호출 볼륨이 동일하게 유지되면 엔드포인트가 확장되지 않고 높은 CPU 사용률 모델에 대한 모든 요청을 처리할 인스턴스가 충분하지 않을 수 있으므로 이 방법을 사용하는 것이 좋습니다. 엔드포인트 오토 스케일링에 대한 자세한 내용은 Amazon SageMaker AI 모델의 자동 조정 섹션을 참조하세요.