Come funziona EI

Gli acceleratori Amazon Elastic Inference sono dispositivi collegati alla rete che interagiscono con SageMaker le istanze dell'endpoint per accelerare le chiamate di inferenza. Elastic Inference accelera l'inferenza consentendoti di collegare GPU frazionarie a qualsiasi istanza. SageMaker Puoi selezionare l'istanza client per eseguire l'applicazione e collegare un acceleratore Elastic Inference per utilizzare la corretta quantità di accelerazione GPU per le esigenze di inferenza. Elastic Inference consente di ridurre i costi quando non utilizzi completamente l'istanza della GPU per l'inferenza. Ti consigliamo di provare Elastic Inference con il modello utilizzando diverse istanze CPU e dimensioni dell'acceleratore.

I seguenti tipi di acceleratori EI sono disponibili. Puoi configurare le istanze endpoint o notebook con qualsiasi tipo di acceleratore EI.

Nella tabella, il throughput in teraflop (TFLOP) viene elencato sia per le operazioni a virgola mobile a precisione singola (F32) che per quelle a virgola mobile a precisione dimezzata (F16). Viene riportata anche la quantità di memoria in GB.

Tipo di acceleratore	Throughput F32 in TFLOP	Throughput F16 in TFLOP	Memoria in GB
ml.eia2.medium	1	8	2
ml.eia2.large	2	16	4
ml.eia2.xlarge	4	32	8
ml.eia1.medium	1	8	1
ml.eia1.large	2	16	2
ml.eia1.xlarge	4	32	4

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Elastic Inference

Configurazione per l'utilizzo di EI