Test del caricamento della configurazione di scalabilità automatica - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Test del caricamento della configurazione di scalabilità automatica

Eseguite test di carico per scegliere una configurazione di scalabilità che funzioni nel modo desiderato.

Le seguenti linee guida per i test di carico presuppongono che si stia utilizzando una politica di scalabilità che utilizza la metrica di destinazione predefinita. SageMakerVariantInvocationsPerInstance

Determinazione delle caratteristiche delle prestazioni

Esegui il test di carico per trovare il picco InvocationsPerInstance che la tua variante di produzione del modello è in grado di gestire e la latenza delle richieste, mentre aumenta la concorrenza.

Questo valore dipende dal tipo di istanza scelto, dai payload che i client inviati in genere dai client del modello e dalle prestazioni di eventuali dipendenze esterne del modello.

Per trovare il valore di picco requests-per-second (RPS) e la latenza delle richieste, la variante di produzione del modello è in grado di gestire
  1. Configura un endpoint con il modello utilizzando una singola istanza. Per informazioni su come configurare un endpoint, consulta Implementa il modello nei servizi di hosting SageMaker .

  2. Utilizza uno strumento di test del carico per generare un numero crescente di richieste parallele e monitorare la latenza RPS e la latenza del modello in uscita dello strumento di test di carico.

    Nota

    Puoi anche monitorare requests-per-minute invece di. RPS In questo caso non moltiplicare per 60 nell'equazione per calcolare SageMakerVariantInvocationsPerInstance come riportato di seguito.

    Quando la latenza del modello aumenta o la percentuale di transazioni riuscite diminuisce, questo è il picco RPS che il modello è in grado di gestire.

Calcolo del carico di destinazione

Dopo aver individuato le caratteristiche prestazionali della variante, potete determinare il numero massimo RPS consentito di invio a un'istanza. La soglia utilizzata per il dimensionamento deve essere inferiore a questo valore massimo. Utilizzate la seguente equazione in combinazione con il test di carico per determinare il valore corretto per la metrica di SageMakerVariantInvocationsPerInstance destinazione nella configurazione di scalabilità.

SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

MAX_RPSDov'è il valore massimo RPS stabilito in precedenza e SAFETY_FACTOR il fattore di sicurezza che hai scelto per garantire che i tuoi clienti non superino il valore massimo. RPS Moltiplica per 60 per convertire da RPS invocations-per-minute a e corrispondere alla CloudWatch metrica al minuto SageMaker utilizzata per implementare la scalabilità automatica (non è necessario farlo se hai misurato requests-per-minute invece di). requests-per-second

Nota

SageMaker consiglia di iniziare il test con un valore pari a 0,5. SAFETY_FACTOR Testa la tua configurazione di scalabilità per assicurarti che funzioni nel modo previsto con il tuo modello, sia per aumentare che per diminuire il traffico dei clienti sull'endpoint.