Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Creare una configurazione endpoint
Dopo aver creato un modello, creare una configurazione endpoint. È quindi possibile distribuire il modello utilizzando le specifiche nella configurazione endpoint. Nella configurazione, si specifica se si desidera un endpoint in tempo reale o serverless. Per creare una configurazione endpoint serverless, puoi utilizzare la SageMaker console Amazon
Per creare una configurazione dell'endpoint (utilizzando) API
L'esempio seguente utilizza AWS SDKfor Python (Boto3)
-
Per
EndpointConfigName
, scegliere un nome per la configurazione endpoint. Il nome deve essere univoco all'interno dell’account in una Regione. -
(Facoltativo) Per
KmsKeyId
, utilizzate l'ID della chiave, la chiaveARN, il nome alias o l'alias ARN per una AWS KMS chiave che desiderate utilizzare. SageMaker utilizza questa chiave per crittografare la tua ECR immagine Amazon. -
Per
ModelName
, usare il nome del modello da distribuire. Dovrebbe essere lo stesso modello usato nella fase Creazione di un modello. -
Per
ServerlessConfig
:-
Imposta
MemorySizeInMB
su2048
. Per questo esempio, abbiamo impostato le dimensioni della memoria su 2048 MB, ma è possibile scegliere uno dei valori seguenti: 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB o 6144 MB. -
Imposta
MaxConcurrency
su20
. Per questo esempio, impostiamo il numero massimo di simultaneità su 20. Il numero massimo di richiami simultanei che è possibile impostare per un endpoint serverless è 200, mentre il valore minimo che è possibile scegliere è 1. -
(Facoltativo) Per utilizzare Concorrenza assegnata, impostare
ProvisionedConcurrency
su 10. Per questo esempio, impostiamo Concorrenza assegnata su 10. Il numeroProvisionedConcurrency
per un endpoint serverless deve essere inferiore o uguale al numeroMaxConcurrency
. È possibile lasciarlo vuoto se si desidera utilizzare l'endpoint Serverless Inference su richiesta. È possibile scalare dinamicamente Effettua il provisioning di simultaneità. Per ulteriori informazioni, consulta Dimensionamento automatico del provisioning simultaneo per un endpoint serverless.
-
response = client.create_endpoint_config( EndpointConfigName="
<your-endpoint-configuration>
", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>
", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )
Per creare una configurazione endpoint (mediante la console)
-
Accedi alla SageMakerconsole Amazon
. -
Nella scheda di navigazione, scegliere Inferenza.
-
Quindi, scegliere Configurazioni endpoint.
-
Scegliere Crea configurazione endpoint.
-
Per Nome configurazione endpoint, inserire un nome univoco all'interno dell'account in una Regione.
-
Per Tipo di endpoint, selezionare Serverless.
-
Per le varianti di produzione, scegliere Aggiungi modello.
-
In Aggiungi modello, selezionare il modello da utilizzare dall'elenco dei modelli, quindi scegliere Salva.
-
Dopo aver aggiunto il modello, in Azioni, scegliere Modifica.
-
Per Dimensioni memoria, scegliere le dimensioni della memoria desiderate in GB.
-
Per Max simultaneità, inserire il numero massimo di invocazioni simultanee desiderato per l'endpoint. Il valore massimo inseribile è 200, mentre quello minimo è 1.
-
(Facoltativo) Per utilizzare Simultaneità assegnata, inserire il numero desiderato di chiamate simultanee nel campo dell’impostazione Simultaneità assegnata. Il numero di richiami simultanei assegnati deve essere minore o uguale al numero massimo di richiami simultanei.
-
Selezionare Salva.
-
(Facoltativo) Per Tag, immettere le coppie chiave-valore se si desidera creare metadati per la configurazione endpoint.
-
Scegliere Crea configurazione endpoint.