Come funziona Prerequisiti Determina la dimensione del batch di sequenza Configurare una distribuzioni in sequenza Gestione dei guasti

Usa distribuzioni continue

Quando aggiorni l'endpoint, puoi specificare un'implementazione progressiva per spostare gradualmente il traffico dal vecchio parco istanze a un nuovo parco istanze. Puoi controllare la dimensione delle fasi di spostamento del traffico e specificare un periodo di valutazione per monitorare le nuove istanze alla ricerca di eventuali problemi prima di eliminare le istanze dal vecchio parco istanze. Con le implementazioni periodiche, le istanze del vecchio parco istanze vengono ripulite dopo ogni trasferimento di traffico verso il nuovo parco istanze, riducendo la quantità di istanze aggiuntive necessarie per aggiornare l'endpoint. Ciò è utile soprattutto per le istanze accelerate che sono molto richieste.

Le distribuzioni in sequenza sostituiscono gradualmente l'implementazione precedente della versione del modello con la nuova versione aggiornando l'endpoint in batch di dimensioni configurabili. Il comportamento di spostamento del traffico delle implementazioni in sequenza è simile alla modalità di spostamento del traffico lineare in blue/green deployments, but rolling deployments provide you with the benefit of reduced capacity requirements when compared to blue/green deployments. With rolling deployments, fewer instances are active at a time, and you have more granular control over how many instances you want to update in the new fleet. You should consider using a rolling deployment instead of a blue/green uso se si utilizzano modelli di grandi dimensioni o un endpoint di grandi dimensioni con molte istanze.

L'elenco seguente descrive le caratteristiche principali delle distribuzioni continue in Amazon SageMaker AI:

Periodo di baking. Il periodo di baking è un periodo di tempo prestabilito per monitorare il nuovo parco istanze prima di passare alla fase di implementazione successiva. Se uno degli allarmi preimpostati scatta durante un periodo di baking, tutto il traffico degli endpoint torna al vecchio parco istanze. Il periodo di baking ti aiuta ad aumentare la fiducia nell'aggiornamento prima di rendere permanente il cambio di traffico.
Dimensioni del batch in sequenza. Hai un controllo granulare sulla dimensione di ogni batch per lo spostamento del traffico o sul numero di istanze che desideri aggiornare in ogni batch. Questo numero può variare dal 5 al 50% delle dimensioni del parco istanze. Puoi specificare la dimensione del batch come numero di istanze o come percentuale totale del tuo parco istanze.
Rollback automatici. Puoi specificare gli CloudWatch allarmi Amazon che l' SageMaker intelligenza artificiale utilizza per monitorare la nuova flotta. Se un problema con il codice aggiornato fa scattare uno degli allarmi, l' SageMaker IA avvia un ripristino automatico della vecchia flotta per mantenerne la disponibilità, riducendo così al minimo i rischi.

Nota

Se l'endpoint utilizza una delle funzionalità elencate nella pagina Esclusioni, non è possibile utilizzare le distribuzioni in sequenza.

Come funziona

Durante un'implementazione continua, l' SageMaker intelligenza artificiale fornisce l'infrastruttura per spostare il traffico dalla vecchia flotta alla nuova flotta senza dover fornire tutte le nuove istanze contemporaneamente. SageMaker L'intelligenza artificiale utilizza i seguenti passaggi per spostare il traffico:

SageMaker L'intelligenza artificiale fornisce il primo lotto di istanze del nuovo parco istanze.
Una parte del traffico viene spostata dalle vecchie istanze al primo batch di nuove istanze.
Dopo il periodo di cottura, se non viene attivato alcun CloudWatch allarme Amazon, l' SageMaker intelligenza artificiale ripulisce una serie di vecchie istanze.
SageMaker L'intelligenza artificiale continua a fornire, spostare e ripulire le istanze in batch fino al completamento dell'implementazione.

Se viene attivato un allarme durante uno dei periodi di baking, il traffico viene ripristinato al vecchio parco istanze in batch della dimensione specificata dall'utente. In alternativa, puoi specificare la distribuzioni in sequenza per riportare il 100% del traffico al vecchio parco istanze se scatta un allarme.

Il diagramma seguente mostra la progressione di una distribuzione in sequenza di successo, come descritto nelle fasi precedenti.

Le fasi di una distribuzione a rotazione del traffico si stanno spostando con successo dalla vecchia alla nuova flotta.

Per creare una distribuzioni in sequenza, è sufficiente specificare la configurazione di distribuzione desiderata. Quindi l' SageMaker intelligenza artificiale si occupa del provisioning di nuove istanze, della chiusura delle vecchie istanze e dello spostamento del traffico per te. Puoi creare e gestire la tua implementazione tramite l'API e i comandi esistenti UpdateEndpoint. CreateEndpoint SageMaker AWS Command Line Interface

Prerequisiti

Prima di configurare una distribuzione continua, devi creare CloudWatch allarmi Amazon per monitorare i parametri dal tuo endpoint. Se uno qualsiasi degli allarmi scatta durante il periodo di baking, il traffico inizia a rifluire verso il vecchia parco istanze. Per informazioni su come configurare gli CloudWatch allarmi su un endpoint, consulta la pagina dei prerequisiti Auto-Rollback Configuration and Monitoring. Per ulteriori informazioni sugli CloudWatch allarmi, consulta Using Amazon CloudWatch alarms nella Amazon CloudWatch User Guide.

Inoltre, consulta la pagina Esclusioni per assicurarti che l'endpoint soddisfi i requisiti per una distribuzioni in sequenza.

Determina la dimensione del batch di sequenza

Prima di aggiornare l'endpoint, determina la dimensione del batch che desideri utilizzare per spostare in modo incrementale il traffico verso il nuovo parco istanze.

Per le implementazioni in sequenza, puoi specificare una dimensione del batch pari al 5-50% della capacità del tuo parco istanze. Se scegli un batch di grandi dimensioni, la distribuzione viene completata più rapidamente. Tuttavia, tieni presente che l'endpoint richiede una maggiore capacità durante l'aggiornamento, all'incirca il sovraccarico delle dimensioni del batch. Se scegli un batch di dimensioni inferiori, la distribuzione richiede più tempo, ma si utilizza meno capacità durante la distribuzione.

Configurare una distribuzioni in sequenza

Una volta che sei pronto per la distribuzione e hai configurato gli CloudWatch allarmi per il tuo endpoint, puoi utilizzare l'UpdateEndpointAPI SageMaker AI o il comando update-endpoint in per avviare la distribuzione. AWS Command Line Interface

Come aggiornare un endpoint

L'esempio seguente mostra come aggiornare l'endpoint con una distribuzione continua utilizzando il metodo update_endpoint del client AI Boto3. SageMaker

Per configurare una distribuzioni in sequenza, utilizza l'esempio e i campi seguenti:

Per EndpointName, utilizza il nome dell'endpoint esistente che desideri aggiornare.
Per EndpointConfigName, utilizza il nome della configurazione dell'endpoint che desideri utilizzare.
Nell'AutoRollbackConfigurationoggetto, all'interno del Alarms campo, puoi aggiungere i tuoi allarmi per nome. CloudWatch Crea una voce AlarmName: <your-cw-alarm> per ogni allarme che desideri utilizzare.
I nDeploymentConfig, per l'oggetto RollingUpdatePolicy, specifica i seguenti campi:
- MaximumExecutionTimeoutInSeconds: il limite di tempo per la distribuzione totale. Il superamento di questo limite causa un timeout. Il valore massimo che puoi specificare per questo campo è 28800 secondi o 8 ore.
- WaitIntervalInSeconds— La durata del periodo di cottura, durante il quale l' SageMaker IA monitora gli allarmi per ogni lotto della nuova flotta.
- MaximumBatchSize: specifica il Type di batch che desideri utilizzare (conteggio delle istanze o percentuale complessiva del parco istanze) e il Value o la dimensione di ogni batch.
- RollbackMaximumBatchSize: utilizza questo oggetto per specificare la strategia di rollback nel caso in cui scatti un allarme. Specifica il Type di batch che desideri utilizzare (conteggio delle istanze o percentuale complessiva del parco istanze) e il Value o la dimensione di ogni batch. Se non specifichi questi campi o se imposti il valore sul 100% dell'endpoint, l' SageMaker IA utilizza una strategia di rollback blu/verde e riporta tutto il traffico alla vecchia flotta quando scatta un allarme.


import boto3
client = boto3.client("sagemaker")

response = client.update_endpoint(
    EndpointName="<your-endpoint-name>",
    EndpointConfigName="<your-config-name>",
    DeploymentConfig={
        "AutoRollbackConfiguration": {
            "Alarms": [
                {
                    "AlarmName": "<your-cw-alarm>"
                },
            ]
        },
        "RollingUpdatePolicy": { 
            "MaximumExecutionTimeoutInSeconds": number,
            "WaitIntervalInSeconds": number,
            "MaximumBatchSize": {
                "Type": "INSTANCE_COUNT" | "CAPACITY_PERCENTAGE" (default),
                "Value": number
            },
            "RollbackMaximumBatchSize": {
                "Type": "INSTANCE_COUNT" | "CAPACITY_PERCENTAGE" (default),
                "Value": number
            },
        }  
    }
)

Dopo aver aggiornato l'endpoint, potresti voler controllare lo stato della distribuzioni in sequenza e verificare lo stato dell'endpoint. Puoi controllare lo stato del tuo endpoint nella console SageMaker AI oppure puoi rivedere lo stato del tuo endpoint utilizzando l'API. DescribeEndpoint

Nell'oggetto VariantStatus restituito dall'API DescribeEndpoint, il campo Status indica lo stato di implementazione o operativo corrente dell'endpoint. Per ulteriori informazioni sui possibili stati e sul loro significato, consulta. ProductionVariantStatus

Se hai tentato di eseguire una distribuzioni in sequenza e lo stato dell'endpoint è UpdateRollbackFailed, consulta la sezione seguente per una guida alla risoluzione dei problemi.

Gestione dei guasti

Se le distribuzioni in sequenza falliscono e anche il rollback automatico fallisce, l'endpoint può avere uno stato di UpdateRollbackFailed. Questo stato significa che diverse configurazioni degli endpoint vengono distribuite sulle istanze sottostanti all'endpoint e che l'endpoint è in servizio con una combinazione di configurazioni di endpoint vecchie e nuove.

Puoi effettuare un'altra chiamata all'UpdateEndpointAPI per riportare l'endpoint in uno stato integro. Specifica la configurazione dell’endpoint e la configurazione di distribuzione desiderate (come distribuzioni in sequenza, blu/verde o nessuna delle due) per aggiornare l'endpoint.

Puoi chiamare l'DescribeEndpointAPI per verificare nuovamente lo stato dell'endpoint, che viene restituito nell'VariantStatusoggetto come campo. Status Se l'aggiornamento ha esito positivo, lo Status dell'endpoint torna a InService.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Usa lo spostamento lineare del traffico

Esclusioni