Richiamo di un endpoint serverless - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Richiamo di un endpoint serverless

Per eseguire l'inferenza utilizzando un endpoint serverless, è necessario inviare una richiesta HTTP all'endpoint. Puoi utilizzare l'InvokeEndpointAPI o AWS CLI, che effettuano una POST richiesta per richiamare il tuo endpoint. Il numero massimo di richieste e le dimensioni payload della risposta per le chiamate serverless è di 4 MB. Per gli endpoint serverless:

  • Il modello deve essere scaricato e il server deve rispondere correttamente a /ping entro 3 minuti.

  • Il timeout a cui il container deve rispondere alle richieste di inferenza su /invocations è di 1 minuto.

Per richiamare un endpoint

L'esempio seguente utilizza l'AWS SDK for Python (Boto3) per chiamare l'API. InvokeEndpoint Nota che, a differenza delle altre chiamate API riportate in questa guida, è necessario utilizzare SageMaker Runtime Runtime come client. InvokeEndpoint Specifica i seguenti valori:

  • Per endpoint_name, usare il nome dell'endpoint serverless in servizio che si desidera richiamare.

  • Per content_type, specificare il tipo MIME dei dati di input nel corpo della richiesta (ad esempio, application/json).

  • Per payload, usare il payload di richiesta per l'inferenza. Il payload deve essere in byte o un oggetto simile a un file.

runtime = boto3.client("sagemaker-runtime") endpoint_name = "<your-endpoint-name>" content_type = "<request-mime-type>" payload = <your-request-body> response = runtime.invoke_endpoint( EndpointName=endpoint_name, ContentType=content_type, Body=payload )