기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
기존 엔드포인트에 대한 추론 권장 사항 가져오기
추론 권장 작업은 권장 인스턴스 유형과 기존 엔드포인트에 대해 일련의 부하 테스트를 실행합니다. 추론 권장 작업은 모델 버전 등록 시 입력한 샘플 데이터를 사용한 부하 테스트를 기반으로 하는 성능 지표를 사용합니다.
기존 추론 SageMaker 엔드포인트에 대한 추론 권장 사항을 벤치마킹하고 가져와 엔드포인트의 성능을 개선하는 데 도움이 될 수 있습니다. 기존 SageMaker 추론 엔드포인트에 대한 권장 사항을 가져오는 절차는 엔드포인트 없이 추론 권장 사항을 가져오는 절차와 유사합니다. 기존 엔드포인트를 벤치마킹할 때는 주의해야 할 몇 가지 기능 제외 사항이 있습니다.
-
Inference Recommender 작업당 하나의 기존 엔드포인트만 사용할 수 있습니다.
-
엔드포인트에는 하나의 변형만 있을 수 있습니다.
-
오토 스케일링을 지원하는 엔드포인트는 사용할 수 없습니다.
-
이 기능은 실시간 추론 시에만 지원됩니다.
-
이 기능은 실시간 다중 모델 엔드포인트를 지원하지 않습니다.
주의
실시간 트래픽을 처리하는 프로덕션 엔드포인트에서는 Inference Recommender 작업을 실행하지 말 것을 강력히 권고합니다. 벤치마킹 중에 발생하는 합성 부하는 프로덕션 엔드포인트에 악영향을 주어 제한 현상을 일으키거나 부정확한 벤치마크 결과를 초래할 수 있습니다. 비교 목적으로 비프로덕션 또는 개발자 엔드포인트를 사용할 것을 권장합니다.
다음 섹션에서는 Amazon SageMaker Inference Recommender를 사용하여 Python용(Boto3) 및 를 AWS SDK 사용하여 모델 유형에 따라 기존 엔드포인트에 대한 추론 권장 사항을 생성하는 방법을 보여줍니다 AWS CLI.
참고
Inference Recommender 권장 작업을 생성하기 전에 Amazon SageMaker Inference Recommender를 사용하기 위한 사전 조건 충족 여부를 확인합니다.
사전 조건
SageMaker 추론 엔드포인트가 아직 없는 경우 엔드포인트 없이 추론 추천을 받거나 엔드포인트 생성 및 모델 배포 의 지침에 따라 실시간 추론 엔드포인트를 생성할 수 있습니다.
기존 엔드포인트에 대한 추론 권장 사항 생성하기
AWS SDK for Python (Boto3)또는 를 사용하여 프로그래밍 방식으로 추론 권장 사항을 생성합니다 AWS CLI. 모델 레지스트리에 모델을 등록할 ARN 때부터 추론 권장 사항의 작업 이름, 기존 SageMaker 추론 엔드포인트의 이름, AWS IAM 역할, ARN입력 구성 및 모델 패키지를 지정합니다.
추론 권장 작업 결과 확인하기
표준 추론 권장 작업과 동일한 절차로 프로그래밍 방식으로 추론 권장 작업 결과를 수집할 수 있습니다. 자세한 내용은 추론 권장 작업 결과 확인하기 단원을 참조하십시오.
기존 엔드포인트에 대한 추론 권장 작업 결과를 받으면 다음과 유사한 JSON 응답을 받게 됩니다.
{ "JobName":
"job-name"
, "JobType": "Default", "JobArn": "arn:aws:sagemaker:region
:account-id
:inference-recommendations-job/resource-id
", "RoleArn":"iam-role-arn"
, "Status": "COMPLETED", "CreationTime": 1664922919.2, "LastModifiedTime": 1664924208.291, "InputConfig": { "ModelPackageVersionArn": "arn:aws:sagemaker:region
:account-id
:model-package/resource-id
", "Endpoints": [ { "EndpointName":"endpoint-name"
} ] }, "InferenceRecommendations": [ { "Metrics": { "CostPerHour": 0.7360000014305115, "CostPerInference": 7.456940238625975e-06, "MaxInvocations": 1645, "ModelLatency": 171 }, "EndpointConfiguration": { "EndpointName":"sm-endpoint-name"
, "VariantName":"variant-name"
, "InstanceType": "ml.g4dn.xlarge", "InitialInstanceCount": 1 }, "ModelConfiguration": { "EnvironmentParameters": [ { "Key": "TS_DEFAULT_WORKERS_PER_MODEL", "ValueType": "string", "Value": "4" } ] } } ], "EndpointPerformances": [ { "Metrics": { "MaxInvocations": 184, "ModelLatency": 1312 }, "EndpointConfiguration": { "EndpointName":"endpoint-name"
} } ] }
처음 몇 줄에는 추론 권장 작업 자체에 대한 정보가 있습니다. 여기에는 작업 이름, 역할ARN, 생성 및 최신 수정 시간이 포함됩니다.
InferenceRecommendations
사전에는 Inference Recommender 추론 권장 사항 목록이 포함됩니다.
EndpointConfiguration
중첩 사전에는 인스턴스 유형(InstanceType
) 권장 사항과 권장 사항 작업 중에 사용된 엔드포인트 및 변형 이름(배포된 AWS 기계 학습 모델)이 포함되어 있습니다.
Metrics
중첩 사전에는 실시간 엔드포인트의 시간당 예상 비용(CostPerHour
), 실시간 엔드포인트의 추론당 예상 비용(CostPerInference
), 엔드포인트로 전송된 분당 예상 최대 InvokeEndpoint
요청 수(MaxInvocations
) 및 모델 지연 시간(ModelLatency
)에 대한 정보가 포함되어 있습니다. 이는 모델이 에 응답하는 데 걸린 시간 간격(밀리초)입니다 SageMaker. 모델 지연 시간에는 요청을 전송하고 모델의 컨테이너에서 응답을 가져오는 데 걸리는 로컬 통신 시간과 컨테이너에서 추론을 완료하는 데 걸리는 시간도 포함됩니다.
EndpointPerformances
중첩 사전에는 권장 작업이 실행된 기존 엔드포인트의 이름(EndpointName
)과 엔드포인트 성능 지표(MaxInvocations
및 ModelLatency
)가 포함됩니다.