Come funziona EI - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Come funziona EI

Gli acceleratori Amazon Elastic Inference sono dispositivi collegati alla rete che interagiscono con SageMaker le istanze dell'endpoint per accelerare le chiamate di inferenza. Elastic Inference accelera l'inferenza consentendoti di collegare GPU frazionarie a qualsiasi istanza. SageMaker Puoi selezionare l'istanza client per eseguire l'applicazione e collegare un acceleratore Elastic Inference per utilizzare la corretta quantità di accelerazione GPU per le esigenze di inferenza. Elastic Inference consente di ridurre i costi quando non utilizzi completamente l'istanza della GPU per l'inferenza. Ti consigliamo di provare Elastic Inference con il modello utilizzando diverse istanze CPU e dimensioni dell'acceleratore.

I seguenti tipi di acceleratori EI sono disponibili. Puoi configurare le istanze endpoint o notebook con qualsiasi tipo di acceleratore EI.

Nella tabella, il throughput in teraflop (TFLOP) viene elencato sia per le operazioni a virgola mobile a precisione singola (F32) che per quelle a virgola mobile a precisione dimezzata (F16). Viene riportata anche la quantità di memoria in GB.

Tipo di acceleratore Throughput F32 in TFLOP Throughput F16 in TFLOP Memoria in GB
ml.eia2.medium 1 8 2
ml.eia2.large 2 16 4
ml.eia2.xlarge 4 32 8
ml.eia1.medium 1 8 1
ml.eia1.large 2 16 2
ml.eia1.xlarge 4 32 4