오토 스케일링 구성 로드 테스트

PDF

RSS

포커스 모드

오토 스케일링 구성 로드 테스트 - Amazon SageMaker AI

성능 특성 판단 목표 하중 계산

로드 테스트를 수행하여 원하는 방식으로 작동하는 크기 조정 구성을 선택합니다.

다음 로드 테스트 지침에서는 사전 정의된 대상 지표인 SageMakerVariantInvocationsPerInstance를 사용하는 크기 조정 정책을 사용한다고 가정합니다.

주제

성능 특성 판단
목표 하중 계산

성능 특성 판단

로드 테스트를 수행하여 모델의 프로덕션 변형이 처리할 수 있는 InvocationsPerInstance 피크와 동시성 증가에 따른 요청 지연 시간을 확인합니다.

이 값은 선택한 인스턴스 유형, 모델의 클라이언트가 일반적으로 전송하는 페이로드, 모델 보유한 모든 외부 종속성의 성능에 따라 다릅니다.

모델의 프로덕션 변형이 처리할 수 있는 초당 요청(RPS) 피크와 요청 지연 시간을 확인하려면

단일 인스턴스를 사용하여 모델에서 엔드포인트를 설정합니다. 엔드포인트 설정 방법에 대한 자세한 정보는 SageMaker AI 호스팅 서비스에 모델 배포 섹션을 참조하세요.
로드 테스트 도구를 사용하여 증가하는 병렬 요청을 생성하고, 로드 테스트 도구의 출력에서 RPS 및 모델 지연 시간을 모니터링합니다.

참고
RPS 대신 분당 요청을 모니터링할 수도 있습니다. 이러한 경우 아래 표시된 SageMakerVariantInvocationsPerInstance 계산 등식에 60을 곱하지 마세요.

모델 지연 시간이 증가하거나 트랜잭션 성공 비율이 감소하는 경우, 모델이 처리할 수 있는 피크 RPS가 이 값이 됩니다.

목표 하중 계산

변형의 성능 특성을 확인한 이후 인스턴스에 전송되도록 허용해야 하는 최대 RPS를 결정할 수 있습니다. 조정에 사용되는 임계 값은 이 최대 값보다 작아야 합니다. 로드 테스트와 함께 다음 수식을 사용하여 크기 조정 구성의 SageMakerVariantInvocationsPerInstance 대상 지표에 대한 올바른 값을 결정합니다.


SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

MAX_RPS는 이전에 결정했던 최대 RPS이고, SAFETY_FACTOR는 클라이언트가 최대 RPS를 초과하지 않도록 하는 안전 요인입니다. 60을 곱하여 SageMaker AI가 자동 조정을 구현하는 데 사용하는 분당 CloudWatch 지표와 일치하도록 RPS에서 invocations-per-minute로 변환합니다(requests-per-secondrequests-per-minute 대신 분당 요청을 측정한 경우이 작업을 수행할 필요가 없음).

참고

SageMaker AI는 0.5SAFETY_FACTOR의 로 테스트를 시작할 것을 권장합니다. 엔드포인트에서 트래픽이 증가 및 감소해도 모델이 예상한 대로 작동하는지 확인하도록 크기 조정 구성을 테스트하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

엔드포인트를 인스턴스 0으로 조정

AWS CloudFormation 를 사용하여 조정 정책 생성

이 페이지에서

쿠키 기본 설정 선택

쿠키 기본 설정 사용자 지정

필수

성능

기능

광고

쿠키 기본 설정을 저장할 수 없음

오토 스케일링 구성 로드 테스트

주제

성능 특성 판단

모델의 프로덕션 변형이 처리할 수 있는 초당 요청(RPS) 피크와 요청 지연 시간을 확인하려면

참고

목표 하중 계산

참고

이 페이지에서

Related resources

페이지 내용이 도움이 되었습니까?

Related resources

다음 주제:

이전 주제:

도움이 필요하십니까?