Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Creare una configurazione endpoint
Dopo aver creato un modello, creare una configurazione endpoint. È quindi possibile distribuire il modello utilizzando le specifiche nella configurazione endpoint. Nella configurazione, si specifica se si desidera un endpoint in tempo reale o serverless. Per creare una configurazione endpoint serverless, puoi utilizzare la console Amazon SageMaker AI
Per creare una configurazione endpoint (mediante l’API)
L'esempio seguente utilizza l'AWS SDK for Python (Boto3) per chiamare l'
-
Per
EndpointConfigName
, scegliere un nome per la configurazione endpoint. Il nome deve essere univoco all'interno dell’account in una Regione. -
(Facoltativo) Per
KmsKeyId
, usa l'ID chiave, l'ARN della chiave, il nome alias o l'alias ARN per qualsiasi AWS KMS chiave che desideri utilizzare. SageMaker L'intelligenza artificiale utilizza questa chiave per crittografare la tua immagine Amazon ECR. -
Per
ModelName
, usare il nome del modello da distribuire. Dovrebbe essere lo stesso modello usato nella fase Creazione di un modello. -
Per
ServerlessConfig
:-
Imposta
MemorySizeInMB
su2048
. Per questo esempio, abbiamo impostato le dimensioni della memoria su 2048 MB, ma è possibile scegliere uno dei valori seguenti: 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB o 6144 MB. -
Imposta
MaxConcurrency
su20
. Per questo esempio, impostiamo il numero massimo di simultaneità su 20. Il numero massimo di richiami simultanei che è possibile impostare per un endpoint serverless è 200, mentre il valore minimo che è possibile scegliere è 1. -
(Facoltativo) Per utilizzare Concorrenza assegnata, impostare
ProvisionedConcurrency
su 10. Per questo esempio, impostiamo Concorrenza assegnata su 10. Il numeroProvisionedConcurrency
per un endpoint serverless deve essere inferiore o uguale al numeroMaxConcurrency
. È possibile lasciarlo vuoto se si desidera utilizzare l'endpoint Serverless Inference su richiesta. È possibile scalare dinamicamente Effettua il provisioning di simultaneità. Per ulteriori informazioni, consulta Dimensionamento automatico del provisioning simultaneo per un endpoint serverless.
-
response = client.create_endpoint_config( EndpointConfigName="
<your-endpoint-configuration>
", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>
", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )
Per creare una configurazione endpoint (mediante la console)
-
Accedi alla console Amazon SageMaker AI
. -
Nella scheda di navigazione, scegliere Inferenza.
-
Quindi, scegliere Configurazioni endpoint.
-
Scegliere Crea configurazione endpoint.
-
Per Nome configurazione endpoint, inserire un nome univoco all'interno dell'account in una Regione.
-
Per Tipo di endpoint, selezionare Serverless.
-
Per le varianti di produzione, scegliere Aggiungi modello.
-
In Aggiungi modello, selezionare il modello da utilizzare dall'elenco dei modelli, quindi scegliere Salva.
-
Dopo aver aggiunto il modello, in Azioni, scegliere Modifica.
-
Per Dimensioni memoria, scegliere le dimensioni della memoria desiderate in GB.
-
Per Max simultaneità, inserire il numero massimo di invocazioni simultanee desiderato per l'endpoint. Il valore massimo inseribile è 200, mentre quello minimo è 1.
-
(Facoltativo) Per utilizzare Simultaneità assegnata, inserire il numero desiderato di chiamate simultanee nel campo dell’impostazione Simultaneità assegnata. Il numero di richiami simultanei assegnati deve essere minore o uguale al numero massimo di richiami simultanei.
-
Selezionare Salva.
-
(Facoltativo) Per Tag, immettere le coppie chiave-valore se si desidera creare metadati per la configurazione endpoint.
-
Scegliere Crea configurazione endpoint.