Inferenza asincrona - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Inferenza asincrona

Amazon SageMaker Asynchronous Inference è una funzionalità che mette in coda le richieste in entrata e le SageMaker elabora in modo asincrono. Questa opzione è ideale per richieste con payload di grandi dimensioni (fino a 1 GB), tempi di elaborazione lunghi (fino a un'ora) e requisiti di latenza quasi in tempo reale. L'inferenza asincrona consente di risparmiare sui costi ridimensionando automaticamente il numero di istanze a zero quando non ci sono richieste da elaborare, in modo da pagare solo quando l'endpoint sta elaborando le richieste.

Come funziona

La creazione di un endpoint di inferenza asincrona è simile alla creazione di endpoint di inferenza in tempo reale. Puoi utilizzare i tuoi SageMaker modelli esistenti e devi solo specificare l'AsyncInferenceConfigoggetto durante la creazione della configurazione dell'endpoint con il campo nell'API. EndpointConfig CreateEndpointConfig Il seguente diagramma mostra l'architettura e il flusso di lavoro di inferenza asincrona.

Diagramma di architettura dell'inferenza asincrona che mostra come un utente richiama un endpoint.

Per richiamare l'endpoint, devi inserire il payload della richiesta in Amazon S3. È inoltre necessario fornire un puntatore a questo payload come parte della richiesta. InvokeEndpointAsync Al momento della chiamata, mette in SageMaker coda la richiesta per l'elaborazione e restituisce un identificatore e una posizione di output come risposta. Al momento dell'elaborazione, SageMaker colloca il risultato nella posizione Amazon S3. Facoltativamente, puoi scegliere di ricevere notifiche di successo o di errore con Amazon SNS. Per ulteriori informazioni su come configurare le notifiche asincrone, consulta Controllo dei risultati della previsione.

Nota

La presenza di un oggetto di configurazione di inferenza asincrona (AsyncInferenceConfig) nella configurazione dell'endpoint implica che l'endpoint può ricevere solo chiamate asincrone.

Come si inizia?

Se sei un utente alle prime armi di Amazon SageMaker Asynchronous Inference, ti consigliamo di fare quanto segue:

Tieni presente che se l'endpoint utilizza una delle funzionalità elencate nella pagina Esclusioni, non puoi utilizzare l’inferenza asincrona.