Calcolo della baseline, rilevamento della deriva e ciclo di vita con e ClarifyCheck fasi QualityCheck in Amazon Pipelines SageMaker - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Calcolo della baseline, rilevamento della deriva e ciclo di vita con e ClarifyCheck fasi QualityCheck in Amazon Pipelines SageMaker

L'argomento seguente illustra come le linee di base e le versioni del modello si evolvono in Amazon SageMaker Pipelines quando si utilizzano i passaggi e. ClarifyCheck QualityCheck

Per la fase ClarifyCheck, una baseline è un singolo file che si trova nelle proprietà della fase con il suffisso constraints. Per la fase QualityCheck, una baseline è una combinazione di due file che si trovano nelle proprietà della fase: uno con il suffisso statistics e l'altro con il suffisso constraints. Negli argomenti seguenti vengono illustrate queste proprietà con un prefisso che descrive come vengono utilizzate, influendo sul comportamento delle baseline e sul ciclo di vita in queste due fasi della pipeline. Ad esempio, la fase ClarifyCheck calcola e assegna sempre le nuove baseline nella proprietà CalculatedBaselineConstraints e la fase QualityCheck fa lo stesso nelle proprietà CalculatedBaselineConstraints e CalculatedBaselineStatistics.

Calcolo di base, registrazione e fasi ClarifyCheck QualityCheck

Entrambe le fasi ClarifyCheck e QualityCheck calcolano sempre le nuove baseline in base agli input delle fasi attraverso l'esecuzione del processo di elaborazione sottostante. È possibile accedere a queste baseline appena calcolate tramite le proprietà con il prefisso CalculatedBaseline. È possibile registrare queste proprietà come ModelMetrics del pacchetto del modello in Fase del modello. Questo pacchetto del modello può essere registrato con 5 diverse baseline. È possibile registrarlo con uno per ogni tipo di controllo: bias nei dati, bias nel modello e spiegabilità del modello dall'esecuzione della fase ClarifyCheck e qualità del modello e qualità dei dati dall'esecuzione della fase QualityCheck. Il parametro register_new_baseline determina il valore impostato nelle proprietà con il prefisso BaselineUsedForDriftCheck dopo l'esecuzione di una fase.

La seguente tabella dei potenziali casi d'uso mostra i diversi comportamenti derivanti dai parametri delle fasi che è possibile impostare per le fasi ClarifyCheck e QualityCheck:

Possibile caso d'uso da prendere in considerazione per la selezione di questa configurazione skip_check / register_new_baseline La fase esegue un controllo della deviazione? Valore della proprietà di fase CalculatedBaseline Valore della proprietà di fase BaselineUsedForDriftCheck

Stai effettuando una riqualificazione regolare con i controlli abilitati per ottenere una nuova versione del modello, ma desideri mantenere le baseline precedenti come DriftCheckBaselines nel registro dei modelli per la nuova versione del modello.

False/ False Il controllo della deviazione viene eseguito in base alle baseline esistenti Nuove baseline calcolate eseguendo la fase Baseline basata sull'ultimo modello approvato nel registro dei modelli o sulla baseline fornita come parametro di fase

Stai effettuando una riqualificazione regolare con i controlli abilitati per ottenere una nuova versione del modello, ma desideri aggiornare DriftCheckBaselines con le baseline appena calcolate nel registro dei modelli per la nuova versione del modello.

False/ True Il controllo della deviazione viene eseguito in base alle baseline esistenti Nuove baseline calcolate eseguendo la fase Baseline appena calcolata eseguendo la fase (valore della proprietà CalculatedBaseline)

Stai avviando la pipeline per riqualificare una nuova versione del modello perché Amazon SageMaker Model Monitor ha rilevato una violazione su un endpoint per un particolare tipo di controllo e desideri saltare questo tipo di controllo rispetto alla baseline precedente, ma riprendere la baseline precedente come DriftCheckBaselines nel registro dei modelli per la tua nuova versione del modello.

True/ False Nessun controllo di deviazione Nuove baseline calcolate eseguendo Baseline basata sull'ultimo modello approvato nel registro dei modelli o sulla baseline fornita come parametro di fase
Questo succede nei seguenti casi:
  • Stai avviando l'esecuzione iniziale della pipeline, creando la prima versione del modello e generando le baseline iniziali.

  • Stai avviando la pipeline per riqualificare una nuova versione del modello perché Model Monitor ha rilevato una violazione sull'endpoint per un particolare tipo di controllo. Se si desidera saltare il controllo sulla baseline precedente e aggiornare DriftCheckBaselines con la baseline appena calcolata direttamente nel registro del modello.

True/ True Nessun controllo di deviazione Nuove baseline calcolate eseguendo la fase Baseline appena calcolata eseguendo la fase (valore della proprietà CalculatedBaseline)
Nota

Se utilizzi la notazione scientifica nel vincolo, devi convertirlo in valore con virgola mobile. Per un esempio di script di preelaborazione su come eseguire questa operazione, consulta Creazione di una baseline di qualità del modello.

Quando si registra un modello con Fase del modello, è possibile registrare la proprietà BaselineUsedForDriftCheck come DriftCheckBaselines. Questi file di baseline possono quindi essere utilizzati da Model Monitor per i controlli di qualità dei modelli e dei dati. Inoltre, queste linee di base possono essere utilizzate anche nella QualityCheck fase ClarifyCheckStep e per confrontare i modelli appena addestrati con i modelli esistenti registrati nel registro dei modelli per future esecuzioni della pipeline.

Rilevamento delle deviazioni rispetto alle linee di base precedenti nelle pipeline

Nel caso della fase QualityCheck, quando si avvia la pipeline per la riqualificazione regolare per ottenere una nuova versione del modello, è preferibile non eseguire la fase di addestramento se la qualità dei dati e il bias nei dati presentano Schema per violazioni (file constraint_violations.json) nelle baseline della precedente versione del modello approvata. Inoltre, potresti non voler registrare la versione del modello appena addestrata se la qualità del modello, il bias del modello o la spiegabilità del modello violano la baseline registrata della precedente versione del modello approvata durante l'esecuzione della fase ClarifyCheck. In questi casi, è possibile abilitare i controlli desiderati impostando la proprietà skip_check della fase di controllo corrispondente su False. Se viene rilevata una violazione rispetto alle baseline precedenti, le fasi ClarifyCheck e QualityCheck non riescono. Il processo di pipeline quindi non procede in modo che il modello che devia dalla baseline non venga registrato. Le fasi ClarifyCheck e QualityCheck sono in grado di ottenere le DriftCheckBaselines dell'ultima versione approvata del modello di un determinato gruppo di pacchetti di modelli per fare un confronto. Le baseline precedenti possono anche essere fornite direttamente tramite supplied_baseline_constraints (in aggiunta a supplied_baseline_statistics se si tratta di una fase QualityCheck) e hanno sempre la priorità rispetto a qualsiasi baseline estratta dal gruppo di pacchetti di modelli.

Ciclo di vita ed evoluzione della versione di base e del modello con Pipelines

Impostando register_new_baseline delle fasi ClarifyCheck e QualityCheck su False, la baseline precedente è accessibile tramite il prefisso della proprietà di fase BaselineUsedForDriftCheck. È quindi possibile registrare queste baseline come DriftCheckBaselines nella nuova versione del modello quando si registra un modello con Fase del modello. Una volta approvata questa nuova versione del modello nel registro dei modelli, la DriftCheckBaseline in questa versione del modello diventa disponibile per le fasi ClarifyCheck e QualityCheck del prossimo processo di pipeline. Se si desidera aggiornare la baseline di un determinato tipo di controllo per le versioni future del modello, è possibile impostare register_new_baseline su True in modo che le proprietà con prefisso BaselineUsedForDriftCheck diventino la nuova baseline calcolata. In questo modo, è possibile conservare le baseline preferite per un modello addestrato in futuro o aggiornare le baseline per i controlli di deviazione quando necessario, gestendo l'evoluzione e il ciclo di vita della baseline durante le iterazioni di addestramento del modello.

Il diagramma seguente illustra una model-version-centric panoramica dell'evoluzione e del ciclo di vita di base.

Una model-version-centric panoramica dell'evoluzione e del ciclo di vita di base.