Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Richiamo di un endpoint serverless
Per eseguire l'inferenza utilizzando un endpoint serverless, è necessario inviare una richiesta HTTP all'endpoint. Puoi utilizzare l'InvokeEndpointAPI o AWS CLI, che effettuano una POST
richiesta per richiamare il tuo endpoint. Il numero massimo di richieste e le dimensioni payload della risposta per le chiamate serverless è di 4 MB. Per gli endpoint serverless:
Il modello deve essere scaricato e il server deve rispondere correttamente a
/ping
entro 3 minuti.Il timeout a cui il container deve rispondere alle richieste di inferenza su
/invocations
è di 1 minuto.
Per richiamare un endpoint
L'esempio seguente utilizza l'AWS SDK for Python (Boto3) per chiamare l'InvokeEndpoint
Specifica i seguenti valori:
-
Per
endpoint_name
, usare il nome dell'endpoint serverless in servizio che si desidera richiamare. -
Per
content_type
, specificare il tipo MIME dei dati di input nel corpo della richiesta (ad esempio,application/json
). -
Per
payload
, usare il payload di richiesta per l'inferenza. Il payload deve essere in byte o un oggetto simile a un file.
runtime = boto3.client("sagemaker-runtime") endpoint_name = "
<your-endpoint-name>
" content_type = "<request-mime-type>
" payload =<your-request-body>
response = runtime.invoke_endpoint( EndpointName=endpoint_name, ContentType=content_type, Body=payload )