Creare una configurazione endpoint - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creare una configurazione endpoint

Dopo aver creato un modello, creare una configurazione endpoint. È quindi possibile distribuire il modello utilizzando le specifiche nella configurazione endpoint. Nella configurazione, si specifica se si desidera un endpoint in tempo reale o serverless. Per creare una configurazione endpoint serverless, puoi utilizzare la SageMaker console Amazon, il CreateEndpointConfigAPI, o il. AWS CLI Gli approcci API e le console sono descritti nelle sezioni seguenti.

Per creare una configurazione dell'endpoint (utilizzando) API

L'esempio seguente utilizza AWS SDKfor Python (Boto3) per chiamare il. CreateEndpointConfigAPI Specifica i seguenti valori:

  • Per EndpointConfigName, scegliere un nome per la configurazione endpoint. Il nome deve essere univoco all'interno dell’account in una Regione.

  • (Facoltativo) PerKmsKeyId, utilizzate l'ID della chiave, la chiaveARN, il nome alias o l'alias ARN per una AWS KMS chiave che desiderate utilizzare. SageMaker utilizza questa chiave per crittografare la tua ECR immagine Amazon.

  • Per ModelName, usare il nome del modello da distribuire. Dovrebbe essere lo stesso modello usato nella fase Creazione di un modello.

  • Per ServerlessConfig:

    • Imposta MemorySizeInMB su 2048. Per questo esempio, abbiamo impostato le dimensioni della memoria su 2048 MB, ma è possibile scegliere uno dei valori seguenti: 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB o 6144 MB.

    • Imposta MaxConcurrency su 20. Per questo esempio, impostiamo il numero massimo di simultaneità su 20. Il numero massimo di richiami simultanei che è possibile impostare per un endpoint serverless è 200, mentre il valore minimo che è possibile scegliere è 1.

    • (Facoltativo) Per utilizzare Concorrenza assegnata, impostare ProvisionedConcurrency su 10. Per questo esempio, impostiamo Concorrenza assegnata su 10. Il numero ProvisionedConcurrency per un endpoint serverless deve essere inferiore o uguale al numero MaxConcurrency. È possibile lasciarlo vuoto se si desidera utilizzare l'endpoint Serverless Inference su richiesta. È possibile scalare dinamicamente Effettua il provisioning di simultaneità. Per ulteriori informazioni, consulta Dimensionamento automatico del provisioning simultaneo per un endpoint serverless.

response = client.create_endpoint_config( EndpointConfigName="<your-endpoint-configuration>", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )

Per creare una configurazione endpoint (mediante la console)

  1. Accedi alla SageMakerconsole Amazon.

  2. Nella scheda di navigazione, scegliere Inferenza.

  3. Quindi, scegliere Configurazioni endpoint.

  4. Scegliere Crea configurazione endpoint.

  5. Per Nome configurazione endpoint, inserire un nome univoco all'interno dell'account in una Regione.

  6. Per Tipo di endpoint, selezionare Serverless.

    Screenshot dell'opzione relativa al tipo di endpoint nella console.
  7. Per le varianti di produzione, scegliere Aggiungi modello.

  8. In Aggiungi modello, selezionare il modello da utilizzare dall'elenco dei modelli, quindi scegliere Salva.

  9. Dopo aver aggiunto il modello, in Azioni, scegliere Modifica.

  10. Per Dimensioni memoria, scegliere le dimensioni della memoria desiderate in GB.

    Screenshot dell'opzione relativa alle dimensioni della memoria nella console.
  11. Per Max simultaneità, inserire il numero massimo di invocazioni simultanee desiderato per l'endpoint. Il valore massimo inseribile è 200, mentre quello minimo è 1.

  12. (Facoltativo) Per utilizzare Simultaneità assegnata, inserire il numero desiderato di chiamate simultanee nel campo dell’impostazione Simultaneità assegnata. Il numero di richiami simultanei assegnati deve essere minore o uguale al numero massimo di richiami simultanei.

  13. Selezionare Salva.

  14. (Facoltativo) Per Tag, immettere le coppie chiave-valore se si desidera creare metadati per la configurazione endpoint.

  15. Scegliere Crea configurazione endpoint.