기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker Inference Recommender를 사용한 권장 작업
Amazon SageMaker Inference Recommender는 두 가지 유형의 추천을 수행할 수 있습니다.
-
추론 권장 사항(
Default
작업 유형)은 권장 인스턴스 유형에 대해 일련의 부하 테스트를 실행합니다. 서버리스 엔드포인트에 대한 부하 테스트도 실행할 수 있습니다. 이러한 유형의 권장 작업을 시작하려면 모델 패키지 Amazon 리소스 이름(ARN)만 제공하면 됩니다. 추론 권장 작업은 45분 이내에 완료됩니다. -
엔드포인트 권장 사항(
Advanced
작업 유형)은 원하는 ML 인스턴스 또는 서버리스 엔드포인트를 선택하고, 사용자 지정 트래픽 패턴을 입력하고, 프로덕션 요구 사항에 따라 지연 시간 및 처리량에 대한 요구 사항을 입력하는 사용자 지정 부하 테스트를 기반으로 합니다. 작업 완료 시간은 설정된 작업 지속 시간과 테스트한 추론 구성의 총 개수에 따라 달라지지만 평균 2시간입니다.
두 유형의 권장 사항 모두 동일한 APIs 를 사용하여 작업을 생성, 설명 및 중지합니다. 출력은 관련 환경 변수, 비용, 처리량, 지연 시간 지표가 포함된 인스턴스 구성 권장 사항 목록입니다. 또한 권장 작업에서는 오토스케일링 정책을 구성하는 데 사용할 수 있는 초기 인스턴스 수를 제공합니다. 두 가지 유형의 작업을 구별하려면 SageMaker 콘솔 또는 를 통해 작업을 생성할 때 를 APIs지정Default
하여 예비 엔드포인트 권장 사항을 생성하고 Advanced
사용자 지정 로드 테스트 및 엔드포인트 권장 사항을 지정합니다.
참고
자체 워크플로에서 두 가지 권장 작업을 모두 수행할 필요는 없습니다. 서로 독립적으로 수행할 수 있습니다.
또한 Inference Recommender는 예상 인스턴스 목록 또는 모델 배포를 위한 비용, 처리량, 지연 시간에 최적화된 상위 5개 인스턴스 유형 목록을 신뢰도 점수와 함께 제공할 수 있습니다. 이러한 인스턴스는 모델 배포 시 선택할 수 있습니다. Inference Recommender는 모델을 대상으로 자동 벤치마킹을 수행하여 예상 인스턴스를 제공합니다. 이는 예비 권장 사항이므로 더 정확한 결과를 얻으려면 추가 인스턴스 권장 작업을 실행하는 것이 좋습니다. 예상 인스턴스를 보려면 SageMaker 모델 세부 정보 페이지로 이동합니다. 자세한 내용은 인스턴트 예상 인스턴스 가져오기 단원을 참조하십시오.