Richiamo di un endpoint serverless

Per eseguire l'inferenza utilizzando un endpoint serverless, è necessario inviare una richiesta HTTP all'endpoint. Puoi utilizzare l'InvokeEndpointAPI o AWS CLI, che effettuano una POST richiesta per richiamare il tuo endpoint. Il numero massimo di richieste e le dimensioni payload della risposta per le chiamate serverless è di 4 MB. Per gli endpoint serverless:

Il modello deve essere scaricato e il server deve rispondere correttamente a /ping entro 3 minuti.
Il timeout a cui il container deve rispondere alle richieste di inferenza su /invocations è di 1 minuto.

Per richiamare un endpoint

L'esempio seguente utilizza l'AWS SDK for Python (Boto3) per chiamare l'API. InvokeEndpoint Nota che, a differenza delle altre chiamate API riportate in questa guida, è necessario utilizzare SageMaker Runtime Runtime come client. InvokeEndpoint Specifica i seguenti valori:

Per endpoint_name, usare il nome dell'endpoint serverless in servizio che si desidera richiamare.
Per content_type, specificare il tipo MIME dei dati di input nel corpo della richiesta (ad esempio, application/json).
Per payload, usare il payload di richiesta per l'inferenza. Il payload deve essere in byte o un oggetto simile a un file.


runtime = boto3.client("sagemaker-runtime")

endpoint_name = "<your-endpoint-name>"
content_type = "<request-mime-type>"
payload = <your-request-body>

response = runtime.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType=content_type,
    Body=payload
)

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Creare un endpoint

Aggiornamento di un endpoint serverless