다중 컨테이너 엔드포인트 오토 스케일링

포커스 모드

다중 컨테이너 엔드포인트 오토 스케일링 - Amazon SageMaker AI

InvocationsPerInstance 지표를 사용하여 다중 컨테이너 엔드포인트의 오토 스케일링을 구성하려는 경우 각 컨테이너의 모델이 각 추론 요청에서 유사한 CPU 사용률과 지연 시간을 나타내는 것이 좋습니다. 다중 컨테이너 엔드포인트에 대한 트래픽이 낮은 CPU 사용률 모델에서 높은 CPU 사용률 모델로 전환되지만 전체 호출 볼륨이 동일하게 유지되면 엔드포인트가 확장되지 않고 높은 CPU 사용률 모델에 대한 모든 요청을 처리할 인스턴스가 충분하지 않을 수 있으므로 이 방법을 사용하는 것이 좋습니다. 엔드포인트 오토 스케일링에 대한 자세한 내용은 Amazon SageMaker AI 모델의 자동 조정 섹션을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

직접 호출을 사용하는 다중 컨테이너 엔드포인트에 대한 지표

다중 컨테이너 엔드포인트 문제 해결

쿠키 기본 설정 선택

쿠키 기본 설정 사용자 지정

필수

성능

기능

광고

쿠키 기본 설정을 저장할 수 없음

다중 컨테이너 엔드포인트 오토 스케일링

Related resources

페이지 내용이 도움이 되었습니까?

Related resources

다음 주제:

이전 주제:

도움이 필요하십니까?