기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
엔드포인트 구성 생성
모델을 만들었으면 엔드포인트 구성을 생성하세요. 그런 다음 엔드포인트 구성의 사양을 사용하여 모델을 배포할 수 있습니다. 구성에서 실시간 또는 서버리스 엔드포인트를 원하는지 여부를 지정합니다. 서버리스 엔드포인트 구성을 생성하려면 Amazon SageMaker 콘솔
엔드포인트 구성을 생성하려면( 사용API)
다음 예제에서는 AWS SDK for Python(Boto3)
-
EndpointConfigName
에서 엔드포인트 구성의 이름을 선택하세요. 이 이름은 해당 리전의 계정 내에서 고유해야 합니다. -
(선택 사항) 의 경우
KmsKeyId
사용하려는 키의 AWS KMS 키 ID, 키 , ARN별칭 이름 또는 별칭ARN을 사용합니다. 는 이 키를 SageMaker 사용하여 Amazon ECR 이미지를 암호화합니다. -
ModelName
의 경우, 배포하려는 모델의 이름을 사용하세요. 이는 모델 생성 단계에서 사용한 것과 동일한 모델이어야 합니다. -
ServerlessConfig
의 경우:-
MemorySizeInMB
를2048
으로 설정합니다. 이 예제에서는 메모리 크기를 2048MB로 설정했지만 메모리 크기로 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB, 또는 6144 MB 중 하나를 선택할 수 있습니다. -
MaxConcurrency
를20
으로 설정합니다. 이 예시에서는 최대 동시 실행을 20으로 설정했습니다. 서버리스 엔드포인트에 설정할 수 있는 최대 동시 호출 수는 200개이며, 선택할 수 있는 최소값은 1입니다. -
(선택 사항) 동시성 프로비저닝을 사용하려면
ProvisionedConcurrency
를 10으로 설정합니다. 이 예시에서는 동시성 프로비저닝을 10으로 설정했습니다. 서버리스 엔드포인트의ProvisionedConcurrency
수는MaxConcurrency
보다 작거나 같아야 합니다. 온디맨드 서버리스 추론 엔드포인트를 사용하려는 경우 이 이를 비워 둘 수 있습니다. 동시성 프로비저닝의 크기를 동적으로 조정할 수 있습니다. 자세한 내용은 서버리스 엔드포인트에 맞게 프로비저닝된 동시성의 자동 확장 단원을 참조하십시오.
-
response = client.create_endpoint_config( EndpointConfigName="
<your-endpoint-configuration>
", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>
", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )
엔드포인트 구성성 생성하기 (콘솔 사용)
-
Amazon SageMaker 콘솔
에 로그인합니다. -
탐색 패널에서 Inference(추론)을 선택합니다.
-
다음으로 Endpoint configurations(엔드포인트 구성)을 선택합니다.
-
Create endpoint configuration(엔드포인트 구성 생성)을 선택합니다.
-
Endpoint configuration name(엔드포인트 구성 이름)에 해당 리전의 계정 내에서 고유한 이름을 입력합니다.
-
Type of endpoint(엔드포인트 유형)에서 Serverless(서버리스)를 선택합니다.
-
Production variants(프로덕션 변형)에서 Add model(모델 추가)를 선택합니다.
-
Add model(모델 추가)에서 모델 목록에서 사용하려는 모델을 선택한 다음 Save(저장)을 선택합니다.
-
모델을 추가한 후 Actions(작업)에서 Edit(편집)을 선택합니다.
-
Memory size(메모리 크기)에서 원하는 메모리 크기 (GB)를 선택합니다.
-
Max Concurrency(최대 동시성)에 엔드포인트를 위해 원하는 최대 동시 호출 수를 입력합니다. 입력할 수 있는 최대값은 200이고 최소값은 1입니다.
-
(선택 사항) 동시성 프로비저닝을 사용하려면 Provisioned Concurrency setting(동시성 프로비저닝 설정) 필드에 원하는 동시 호출 수를 입력합니다. 프로비저닝된 동시 호출 수는 최대 동시 호출 수보다 작거나 같아야 합니다.
-
Save(저장)를 선택합니다.
-
(선택 사항) 엔드포인트 구성을 위한 메타데이터를 생성하려면 Tags(태그)에 키-값 페어를 입력합니다.
-
Create endpoint configuration(엔드포인트 구성 생성)을 선택합니다.