오토 스케일링 구성 로드 테스트 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

오토 스케일링 구성 로드 테스트

로드 테스트를 수행하여 원하는 방식으로 작동하는 크기 조정 구성을 선택합니다.

다음 로드 테스트 지침에서는 사전 정의된 대상 지표인 SageMakerVariantInvocationsPerInstance를 사용하는 크기 조정 정책을 사용한다고 가정합니다.

성능 특성 판단

로드 테스트를 수행하여 모델의 프로덕션 변형이 처리할 수 있는 InvocationsPerInstance 피크와 동시성 증가에 따른 요청 지연 시간을 확인합니다.

이 값은 선택한 인스턴스 유형, 모델의 클라이언트가 일반적으로 전송하는 페이로드, 모델 보유한 모든 외부 종속성의 성능에 따라 다릅니다.

모델의 프로덕션 변형이 및 요청 지연 시간을 처리할 수 있는 피크 requests-per-second(RPS)를 찾으려면
  1. 단일 인스턴스를 사용하여 모델에서 엔드포인트를 설정합니다. 엔드포인트 설정 방법에 대한 자세한 정보는 SageMaker AI 호스팅 서비스에 모델 배포 섹션을 참조하세요.

  2. 로드 테스트 도구를 사용하여 병렬 요청 수를 늘리고 로드 테스트 도구의 출력에서 RPS 및 모델 지연 시간을 모니터링합니다.

    참고

    대신를 모니터링할 requests-per-minute 수도 있습니다RPS. 이러한 경우 아래 표시된 SageMakerVariantInvocationsPerInstance 계산 등식에 60을 곱하지 마세요.

    모델 지연 시간이 증가하거나 성공적인 트랜잭션 비율이 감소하면 모델이 처리할 수 RPS 있는 피크입니다.

목표 하중 계산

변형의 성능 특성을 찾은 후가 인스턴스로 전송되도록 허용RPS해야 하는 최대값을 결정할 수 있습니다. 조정에 사용되는 임계 값은 이 최대 값보다 작아야 합니다. 로드 테스트와 함께 다음 수식을 사용하여 크기 조정 구성의 SageMakerVariantInvocationsPerInstance 대상 지표에 대한 올바른 값을 결정합니다.

SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

여기서 MAX_RPS는 이전에 결정RPS한 최대값이고 SAFETY_FACTOR는 클라이언트가 최대값을 초과하지 않도록 하기 위해 선택한 안전 계수입니다RPS. SageMaker AI가 자동 조정을 구현하는 데 사용하는 분당 지표와 일치하도록에서 CloudWatch RPS로 변환 invocations-per-minute하려면 60을 곱합니다( requests-per-minute 대신 측정했다면이 작업을 수행할 필요가 없음 requests-per-second).

참고

SageMaker AI는를 SAFETY_FACTOR 0.5로 사용하여 테스트를 시작할 것을 권장합니다. 엔드포인트에서 트래픽이 증가 및 감소해도 모델이 예상한 대로 작동하는지 확인하도록 크기 조정 구성을 테스트하세요.