Unità di inferenza Zone di disponibilità

Esecuzione di un modello Amazon Rekognition Custom Labels addestrato

Quando sei soddisfatto delle prestazioni del modello, puoi iniziare a usarlo. È possibile avviare e arrestare un modello utilizzando la console o l' AWS SDK. La console include anche esempi di operazioni SDK che è possibile utilizzare.

Argomenti

Unità di inferenza

Quando si avvia il modello, si specifica il numero di risorse di calcolo, note come unità di inferenza, utilizzate dal modello.

Importante

Ti viene addebitato il numero di ore di esecuzione del modello e il numero di unità di inferenza utilizzate dal modello durante l'esecuzione, in base a come configuri l'esecuzione del modello. Ad esempio, se avvii il modello con due unità di inferenza e lo utilizzi per 8 ore, ti verranno addebitate 16 ore di inferenza (8 ore di esecuzione * due unità di inferenza). Per ulteriori informazioni, consulta Ore di inferenza. Se non interrompi il modello esplicitamente, ti verrà addebitato un costo anche se non stai analizzando attivamente le immagini con il modello.

Le transazioni al secondo (TPS) supportate da un'unica unità di inferenza sono influenzate da quanto segue.

Un modello che rileva etichette a livello di immagine (classificazione) ha generalmente un TPS più elevato rispetto a un modello che rileva e localizza oggetti con riquadri di delimitazione (rilevamento di oggetti).
La complessità del modello.
Un'immagine a risoluzione più elevata richiede più tempo per l'analisi.
Un numero maggiore di oggetti in un'immagine richiede più tempo per l'analisi.
Le immagini più piccole vengono analizzate più velocemente delle immagini più grandi.
Un'immagine trasmessa come byte di immagine viene analizzata più velocemente rispetto al primo caricamento dell'immagine in un bucket Amazon S3 e quindi al riferimento all'immagine caricata. Le immagini trasmesse come byte di immagine devono avere dimensioni inferiori a 4,0 MB. Si consiglia di utilizzare i byte di immagine per l'elaborazione delle immagini quasi in tempo reale e quando le dimensioni dell'immagine sono inferiori a 4,0 MB. Ad esempio, immagini acquisite da una telecamera IP.
L'elaborazione delle immagini archiviate in un bucket Amazon S3 è più rapida rispetto al download delle immagini, alla conversione in byte di immagine e al passaggio dei byte dell'immagine per l'analisi.
L'analisi di un'immagine già archiviata in un bucket Amazon S3 è probabilmente più veloce dell'analisi della stessa immagine trasmessa come byte di immagine. Ciò è particolarmente vero se la dimensione dell'immagine è maggiore.

Se il numero di chiamate a DetectCustomLabels supera il TPS massimo supportato dalla somma delle unità di inferenza utilizzate da un modello, Amazon Rekognition Custom Labels restituisce un'eccezione ProvisionedThroughputExceededException.

Gestione della velocità effettiva con unità di inferenza

È possibile aumentare o diminuire la velocità effettiva del modello in base alle esigenze dell'applicazione. Per aumentare la velocità effettiva, utilizzate unità di inferenza aggiuntive. Ogni unità di inferenza aggiuntiva aumenta la velocità di elaborazione di un'unità di inferenza. Per informazioni sul calcolo del numero di unità di inferenza necessarie, consulta Calcolare le unità di inferenza per i modelli Amazon Rekognition Custom Labels e Amazon Lookout for Vision. Se desideri modificare la velocità di trasmissione supportata dal modello, sono disponibili due opzioni:

Aggiungi o rimuovi manualmente le unità di inferenza

Interrompi il modello e riavvia lo stesso con il numero richiesto di unità di inferenza. Lo svantaggio di questo approccio è che il modello non può ricevere richieste durante il riavvio e non può essere utilizzato per gestire i picchi di domanda. Utilizza questo approccio se il tuo modello ha una velocità effettiva costante e il tuo caso d'uso può tollerare 10-20 minuti di inattività. Un esempio potrebbe essere se desideri eseguire chiamate in batch al modello utilizzando una pianificazione settimanale.

Unità di inferenza con ridimensionamento automatico

Se il tuo modello deve far fronte ai picchi di domanda, Amazon Rekognition Custom Labels può ridimensionare automaticamente il numero di unità di inferenza utilizzate dal modello. Con l'aumento della domanda, Amazon Rekognition Custom Labels aggiunge unità di inferenza aggiuntive al modello e le rimuove quando la domanda diminuisce.

Per consentire ad Amazon Rekognition Custom Labels di ridimensionare automaticamente le unità di inferenza per un modello, avvia il modello e imposta il numero massimo di unità di inferenza che può utilizzare utilizzando il parametro MaxInferenceUnits. L'impostazione di un numero massimo di unità di inferenza consente di gestire i costi di esecuzione del modello limitando il numero di unità di inferenza disponibili. Se non specifichi un numero massimo di unità, Amazon Rekognition Custom Labels non ridimensionerà automaticamente il modello, ma utilizzerà solo il numero di unità di inferenza con cui hai iniziato. Per informazioni sul numero massimo di unità di inferenza, vedere Service Quotas.

È inoltre possibile specificare un numero minimo di unità di inferenza utilizzando il parametro MinInferenceUnits. Ciò consente di specificare la velocità effettiva minimo per il modello, dove una singola unità di inferenza rappresenta 1 ora di tempo di elaborazione.

Nota

Non puoi impostare il numero massimo di unità di inferenza con la console Amazon Rekognition Custom Labels. Specificate invece il parametro di input MaxInferenceUnits per l'operazione StartProjectVersion.

Amazon Rekognition Custom Labels fornisce le seguenti metriche di CloudWatch Amazon Logs che puoi utilizzare per determinare lo stato corrente del ridimensionamento automatico di un modello.

Parametro	Descrizione
`DesiredInferenceUnits`	Il numero di unità di inferenza a cui Amazon Rekognition Custom Labels viene ridimensionato verso l'alto o verso il basso.
`InServiceInferenceUnits`	Il numero di unità di inferenza utilizzate dal modello.

Se DesiredInferenceUnits = InServiceInferenceUnits, al momento Amazon Rekognition Custom Labels non sta ridimensionando il numero di unità di inferenza.

Se DesiredInferenceUnits > InServiceInferenceUnits, Amazon Rekognition Custom Labels sta ridimensionando il numero di unità di inferenza fino al valore di DesiredInferenceUnits.

Se DesiredInferenceUnits < InServiceInferenceUnits, Amazon Rekognition Custom Labels sta ridimensionando il numero di unità di inferenza fino al valore di DesiredInferenceUnits.

Per ulteriori informazioni sui parametri restituiti da Amazon Rekognition Custom Labels e sulle dimensioni di filtraggio, consulta Metrics for Rekognition. CloudWatch

Per scoprire il numero massimo di unità di inferenza richieste per un modello, chiama DescribeProjectsVersion e controlla il campo MaxInferenceUnits nella risposta. Per il codice di esempio, consulta Descrizione di un modello (SDK).

Zone di disponibilità

Amazon Rekognition Custom Labels distribuisce unità di inferenza su più zone di disponibilità all'interno di una regione AWS per fornire una maggiore disponibilità. Per ulteriori informazioni, consulta Zone di disponibilità. Per proteggere i modelli di produzione da interruzioni della zona di disponibilità e da malfunzionamento delle unità di inferenza, avvia i modelli di produzione con almeno due unità di inferenza.

Se si verifica un'interruzione della zona di disponibilità, tutte le unità di inferenza nella zona di disponibilità non sono disponibili e la capacità del modello viene ridotta. Le chiamate a Labels vengono ridistribuite tra le unità di DetectCustom inferenza rimanenti. Tali chiamate hanno esito positivo se non superano le transazioni per secondi (TPS) supportate delle unità di inferenza rimanenti. Dopo che AWS ha ripristinato la zona di disponibilità, le unità di inferenza vengono riavviate e viene ripristinata la piena capacità.

Se una singola unità di inferenza non funziona, Amazon Rekognition Custom Labels avvia automaticamente una nuova unità di inferenza nella stessa zona di disponibilità. La capacità del modello viene ridotta fino all'avvio della nuova unità di inferenza.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Miglioramento di un modello

Avvio di un modello