本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立端點組態
建立模型後,請建立端點組態。然後,您可以使用端點組態中的規格來部署模型。在組態中,您可以指定要即時或無伺服器端點。若要建立無伺服器端點組態,您可以使用 Amazon SageMaker AI 主控台
建立端點組態 (使用 API)
下列範例使用 AWS SDK for Python (Boto3)
-
在
EndpointConfigName
,選擇端點組態的名稱。名稱在您帳戶的區域內應為唯一。 -
(選用) 對於
KmsKeyId
,使用您要使用的金鑰ARN的 AWS KMS 金鑰 IDARN、金鑰 、別名名稱或別名。 SageMaker AI 使用此金鑰來加密您的 Amazon ECR映像。 -
在
ModelName
中,請使用您要部署的模型名稱。應該與您在建立模型步驟中使用的模型相同。 -
在
ServerlessConfig
中:-
將
MemorySizeInMB
設定為2048
。在此範例中,我們將記憶體大小設定為 2048 MB,但您可以為記憶體大小選擇以下任意值:1024 MB、2048 MB、3072 MB、4096 MB、5120 MB 或 6144 MB。 -
將
MaxConcurrency
設定為20
。在此範例中,我們將並行上限設定為 20。您可以將無伺服器端點的並行調用數量上限設定為 200,並選擇的最小值為 1。 -
(選用) 若要使用佈建並行,請設定
ProvisionedConcurrency
為 10。在此範例中,我們將佈建並行設定為 10。無伺服器端點的ProvisionedConcurrency
數量必須小於或等於MaxConcurrency
數字。如果您想要使用隨需無伺服器推論端點,可以將其保留空白。您可以動態擴展佈建並行。如需詳細資訊,請參閱針對無伺服器端點自動擴展佈建並行。
-
response = client.create_endpoint_config( EndpointConfigName="
<your-endpoint-configuration>
", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>
", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )
建立端點組態 (使用主控台)
-
在導覽索引標記中,選擇推論。
-
接著,選擇端點組態。
-
選擇 建立端點組態。
-
在端點組態名稱中,輸入您在區域帳戶中的唯一名稱。
-
選取無伺服器做為端點的類型。
-
在生產變體中,選擇新增模型。
-
在新增模型下,從模型清單中選取您要使用的模型,然後選擇儲存。
-
新增模型後,在動作 下選擇編輯。
-
在 記憶體大小 中,選擇您想要的記憶體大小 (GB)。
-
在最大並行數中,輸入您所需的端點並行調用上限。您可以輸入的最大值為 200,下限值為 1。
-
(選用) 若要使用佈建並行,請在佈建並行設定欄位中輸入所需的並行調用數。佈建並行調用的數量,必須小於或等於並行調用上限數。
-
選擇 Save (儲存)。
-
(選用) 在標籤 中,如果您想要為端點組態建立中繼資料,請輸入鍵值對。
-
選擇建立端點組態。