Amazon SageMaker Inference Recommender를 사용한 권장 작업

Amazon SageMaker Inference Recommender는 두 가지 유형의 추천을 수행할 수 있습니다.

추론 권장 사항(Default 작업 유형)은 권장 인스턴스 유형에 대해 일련의 부하 테스트를 실행합니다. 서버리스 엔드포인트에 대한 부하 테스트도 실행할 수 있습니다. 이러한 유형의 권장 작업을 시작하려면 모델 패키지 Amazon 리소스 이름(ARN)만 제공하면 됩니다. 추론 권장 작업은 45분 이내에 완료됩니다.
엔드포인트 권장 사항(Advanced 작업 유형)은 원하는 ML 인스턴스 또는 서버리스 엔드포인트를 선택하고, 사용자 지정 트래픽 패턴을 입력하고, 프로덕션 요구 사항에 따라 지연 시간 및 처리량에 대한 요구 사항을 입력하는 사용자 지정 부하 테스트를 기반으로 합니다. 작업 완료 시간은 설정된 작업 지속 시간과 테스트한 추론 구성의 총 개수에 따라 달라지지만 평균 2시간입니다.

두 유형의 권장 사항 모두 동일한 APIs 를 사용하여 작업을 생성, 설명 및 중지합니다. 출력은 관련 환경 변수, 비용, 처리량, 지연 시간 지표가 포함된 인스턴스 구성 권장 사항 목록입니다. 또한 권장 작업에서는 오토스케일링 정책을 구성하는 데 사용할 수 있는 초기 인스턴스 수를 제공합니다. 두 가지 유형의 작업을 구별하려면 SageMaker 콘솔 또는 를 통해 작업을 생성할 때 를 APIs지정Default하여 예비 엔드포인트 권장 사항을 생성하고 Advanced 사용자 지정 로드 테스트 및 엔드포인트 권장 사항을 지정합니다.

참고

자체 워크플로에서 두 가지 권장 작업을 모두 수행할 필요는 없습니다. 서로 독립적으로 수행할 수 있습니다.

또한 Inference Recommender는 예상 인스턴스 목록 또는 모델 배포를 위한 비용, 처리량, 지연 시간에 최적화된 상위 5개 인스턴스 유형 목록을 신뢰도 점수와 함께 제공할 수 있습니다. 이러한 인스턴스는 모델 배포 시 선택할 수 있습니다. Inference Recommender는 모델을 대상으로 자동 벤치마킹을 수행하여 예상 인스턴스를 제공합니다. 이는 예비 권장 사항이므로 더 정확한 결과를 얻으려면 추가 인스턴스 권장 작업을 실행하는 것이 좋습니다. 예상 인스턴스를 보려면 SageMaker 모델 세부 정보 페이지로 이동합니다. 자세한 내용은 인스턴트 예상 인스턴스 가져오기 단원을 참조하십시오.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

사전 조건

인스턴트 예상 인스턴스 가져오기