Configurazione del modello di scalabilità automatica con la console - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione del modello di scalabilità automatica con la console

Per configurare la scalabilità automatica per un modello (console)
  1. Apri la console Amazon SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Nel riquadro di navigazione, scegli Inferenza, quindi scegli Endpoints.

  3. Scegli il tuo endpoint, quindi per le impostazioni di runtime dell'endpoint, scegli la variante.

  4. Selezionare Configura dimensionamento automatico.

  5. Nella pagina Configura il ridimensionamento automatico delle varianti, per il ridimensionamento automatico delle varianti, procedi come segue:

    1. Per Numero minimo di istanze, digita il numero minimo di istanze che desideri venga mantenuto dalla politica di scalabilità. Almeno un'istanza è necessaria.

    2. In Numero massimo di istanze, digita il numero massimo di istanze che desideri venga mantenuto dalla politica di scalabilità.

  6. Per la politica di scalabilità integrata, procedi come segue:

    1. Per la metrica Target, SageMakerVariantInvocationsPerInstance viene selezionato automaticamente per la metrica e non può essere modificato.

    2. Per il valore Target, digitate il numero medio di chiamate per istanza al minuto per il modello. Per determinare questo valore, segui le linee guida in Test di caricamento.

    3. (Facoltativo) Per Raffreddamento con scala in (secondi) e Raffreddamento in scala orizzontale (secondi), inserite la quantità di tempo, in secondi, per ogni periodo di raffreddamento.

    4. (Facoltativo) Seleziona Disabilita scalabilità in se non desideri che la scalabilità automatica interrompa le istanze quando il traffico diminuisce.

  7. Seleziona Salva.

Questa procedura registra un modello come un target scalabile con Application Auto Scaling. Quando registri un modello, Application Auto Scaling esegue controlli di convalida per garantire che siano rispettate le seguenti condizioni:

  • Il modello esiste

  • Le autorizzazioni sono sufficienti

  • Non stai registrando una variante con un'istanza che è una istanza di prestazioni ottimizzabili, ad esempio T2

    Nota

    SageMaker L'intelligenza artificiale non supporta la scalabilità automatica per istanze espandibili come T2, perché consentono già una maggiore capacità con carichi di lavoro aumentati. Per informazioni sulle istanze con prestazioni espandibili, consulta i tipi di EC2istanze Amazon.