기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
로드 테스트를 수행하여 원하는 방식으로 작동하는 크기 조정 구성을 선택합니다.
다음 로드 테스트 지침에서는 사전 정의된 대상 지표인 SageMakerVariantInvocationsPerInstance
를 사용하는 크기 조정 정책을 사용한다고 가정합니다.
성능 특성 판단
로드 테스트를 수행하여 모델의 프로덕션 변형이 처리할 수 있는 InvocationsPerInstance
피크와 동시성 증가에 따른 요청 지연 시간을 확인합니다.
이 값은 선택한 인스턴스 유형, 모델의 클라이언트가 일반적으로 전송하는 페이로드, 모델 보유한 모든 외부 종속성의 성능에 따라 다릅니다.
모델의 프로덕션 변형이 처리할 수 있는 초당 요청(RPS) 피크와 요청 지연 시간을 확인하려면
-
단일 인스턴스를 사용하여 모델에서 엔드포인트를 설정합니다. 엔드포인트 설정 방법에 대한 자세한 정보는 SageMaker AI 호스팅 서비스에 모델 배포 섹션을 참조하세요.
-
로드 테스트 도구를 사용하여 증가하는 병렬 요청을 생성하고, 로드 테스트 도구의 출력에서 RPS 및 모델 지연 시간을 모니터링합니다.
참고
RPS 대신 분당 요청을 모니터링할 수도 있습니다. 이러한 경우 아래 표시된
SageMakerVariantInvocationsPerInstance
계산 등식에 60을 곱하지 마세요.모델 지연 시간이 증가하거나 트랜잭션 성공 비율이 감소하는 경우, 모델이 처리할 수 있는 피크 RPS가 이 값이 됩니다.
목표 하중 계산
변형의 성능 특성을 확인한 이후 인스턴스에 전송되도록 허용해야 하는 최대 RPS를 결정할 수 있습니다. 조정에 사용되는 임계 값은 이 최대 값보다 작아야 합니다. 로드 테스트와 함께 다음 수식을 사용하여 크기 조정 구성의 SageMakerVariantInvocationsPerInstance
대상 지표에 대한 올바른 값을 결정합니다.
SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60
MAX_RPS
는 이전에 결정했던 최대 RPS이고, SAFETY_FACTOR
는 클라이언트가 최대 RPS를 초과하지 않도록 하는 안전 요인입니다. 60을 곱하여 SageMaker AI가 자동 조정을 구현하는 데 사용하는 분당 CloudWatch 지표와 일치하도록 RPS에서 invocations-per-minute로 변환합니다(requests-per-secondrequests-per-minute 대신 분당 요청을 측정한 경우이 작업을 수행할 필요가 없음).
참고
SageMaker AI는 0.5SAFETY_FACTOR
의 로 테스트를 시작할 것을 권장합니다. 엔드포인트에서 트래픽이 증가 및 감소해도 모델이 예상한 대로 작동하는지 확인하도록 크기 조정 구성을 테스트하세요.