Panoramica della policy sulla scalabilità automatica - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Panoramica della policy sulla scalabilità automatica

Per utilizzare la scalabilità automatica, è necessario definire una politica di scalabilità che aggiunge e rimuove il numero di istanze per la variante di produzione in risposta ai carichi di lavoro effettivi.

Per scalare automaticamente in base alle modifiche del carico di lavoro, sono disponibili due opzioni: il monitoraggio degli obiettivi e le politiche di scalabilità dei passaggi.

Ti consigliamo di utilizzare le politiche di scalabilità di Target Tracking. Con il monitoraggio del target, scegli una CloudWatch metrica Amazon e un valore obiettivo. Auto Scaling crea e gestisce gli CloudWatch allarmi relativi alla politica di scalabilità e calcola l'aggiustamento della scalabilità in base alla metrica e al valore target. La policy aggiunge e rimuove il numero di istanze necessario per mantenere la metrica pari o vicina al valore target specificato. Ad esempio, una policy di dimensionamento che utilizza il parametro predefinito InvocationsPerInstance con un valore target di 70 può mantenere InvocationsPerInstance a o vicino a 70. Per ulteriori informazioni, consulta Policy di dimensionamento del monitoraggio di target nella Guida per l'utente di Application Auto Scaling.

Puoi utilizzare il dimensionamento per fasi quando richiedi una configurazione avanzata, ad esempio specificando quante istanze distribuire in quali condizioni. In caso contrario, è preferibile utilizzare il ridimensionamento del tracciamento del target in quanto sarà completamente automatizzato. Tieni presente che la scalabilità dei passaggi può essere gestita solo da AWS CLI o dall'Application Auto API Scaling. Per una panoramica delle politiche di scalabilità in fasi e del loro funzionamento, consulta le politiche di scalabilità Step nella Application Auto Scaling User Guide

Per creare una policy di dimensionamento con monitoraggio degli obiettivi, è necessario specificare quanto segue:

  • Metrica: la CloudWatch metrica da monitorare, ad esempio il numero medio di chiamate per istanza.

  • Valore obiettivo: il valore target per la metrica, ad esempio 70 chiamate per istanza al minuto.

Puoi creare policy di dimensionamento con monitoraggio degli obiettivi sia con parametri predefiniti che personalizzati. Una metrica predefinita viene definita in un'enumerazione in modo che sia possibile specificarla per nome nel codice o utilizzarla nella console. SageMaker In alternativa, puoi utilizzare AWS CLI o Application Auto Scaling API per applicare una politica di scalabilità di tracciamento del target basata su una metrica predefinita o personalizzata.

Tieni presente che le attività di scalabilità vengono eseguite con periodi di raffreddamento intermedi per evitare rapide fluttuazioni della capacità. Facoltativamente, puoi configurare i tempi di raffreddamento per la tua policy di dimensionamento.

Per ulteriori informazioni sui concetti chiave della scalabilità automatica, vedere la sezione seguente.

Ridimensionamento basato sulla pianificazione

È inoltre possibile creare azioni pianificate per eseguire attività di scalabilità in momenti specifici. È possibile creare operazioni pianificate sia una tantum che ricorrenti. Dopo l'esecuzione di un'azione pianificata, la politica di scalabilità può continuare a decidere se scalare dinamicamente in base alle modifiche del carico di lavoro. La scalabilità pianificata può essere gestita solo da AWS CLI o dall'Application Auto API Scaling. Per ulteriori informazioni, consulta Dimensionamento pianificato nella Guida per l'utente di Dimensionamento automatico delle applicazioni.

Limiti di scalabilità minimi e massimi

Quando si configura la scalabilità automatica, è necessario specificare i limiti di scalabilità prima di creare una politica di scalabilità. I limiti vengono impostati separatamente per i valori minimo e massimo.

Il valore minimo deve essere almeno 1 e uguale o inferiore al valore specificato per il valore massimo.

Il valore massimo deve essere uguale o superiore al valore specificato per il valore minimo. SageMaker il ridimensionamento automatico non impone un limite per questo valore.

Per determinare i limiti di scalabilità necessari per il traffico tipico, verifica la configurazione di scalabilità automatica con la velocità di traffico prevista per il tuo modello.

Se il traffico di una variante diventa zero, SageMaker viene ridimensionato automaticamente fino al numero minimo di istanze specificato. In questo caso, SageMaker emette metriche con un valore pari a zero.

Esistono tre opzioni per specificare la capacità minima e massima:

  1. Utilizza la console per aggiornare le impostazioni Numero minimo di istanze e Numero massimo di istanze.

  2. Usa le --max-capacity opzioni AWS CLI e includi --min-capacity e quando esegui il register-scalable-targetcomando.

  3. Chiamate RegisterScalableTargetAPIe specificate i MaxCapacity parametri MinCapacity and.

Suggerimento

È possibile ridimensionare manualmente aumentando il valore minimo o ridimensionarlo manualmente diminuendo il valore massimo.

Periodo di attesa

Un periodo di cooldown viene utilizzato per proteggersi dal sovradimensionamento quando il modello è in scalabilità orizzontale (riduzione della capacità) o orizzontale (aumento della capacità). Lo fa rallentando le successive attività di scalabilità fino alla scadenza del periodo. In particolare, blocca l'eliminazione delle istanze per le richieste di scalabilità orizzontale e limita la creazione di istanze per le richieste di scalabilità orizzontale. Per ulteriori informazioni, consulta Definire i periodi di cooldown nella Guida per l'utente di Application Auto Scaling.

Il periodo di recupero viene configurato nella politica di ridimensionamento.

Se non si specifica un periodo di recupero con scalabilità in entrata o in uscita, la politica di ridimensionamento utilizza l'impostazione predefinita, che è di 300 secondi per ciascuno.

Se le istanze vengono aggiunte o rimosse troppo rapidamente durante il test della configurazione di scalabilità, valuta la possibilità di aumentare questo valore. Potresti notare questo comportamento se il traffico verso il tuo modello presenta molti picchi o se hai definito più politiche di scalabilità per una variante.

Se le istanze non vengono aggiunte abbastanza rapidamente per affrontare un aumento del traffico, considera la diminuzione di questo valore.

Per ulteriori informazioni sulla configurazione della scalabilità automatica, consulta le seguenti risorse:

Nota

SageMaker ha recentemente introdotto nuove funzionalità di inferenza basate su endpoint di inferenza in tempo reale. Si crea un SageMaker endpoint con una configurazione dell'endpoint che definisce il tipo di istanza e il numero iniziale di istanze per l'endpoint. Quindi, crea un componente di inferenza, che è un oggetto di SageMaker hosting che puoi utilizzare per distribuire un modello su un endpoint. Per informazioni sulla scalabilità dei componenti di inferenza, consulta SageMaker Aggiunge nuove funzionalità di inferenza per aiutare a ridurre i costi e la latenza di implementazione del modello di base e Riduce i costi di implementazione del modello del 50% in media utilizzando le funzionalità più recenti di on the Blog. SageMaker AWS