Qualità dei dati - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Qualità dei dati

Il monitoraggio della qualità dei dati monitora automaticamente i modelli di machine learning (ML) in produzione e ti avvisa in caso di problemi di qualità dei dati. I modelli ML in produzione devono fare previsioni su dati reali che non sono curati con attenzione come la maggior parte dei set di dati di addestramento. Se la natura statistica dei dati che il modello riceve durante la produzione devia rispetto alla natura dei dati della baseline utilizzata per l’addestramento, le previsioni offerte dal modello iniziano ad essere meno accurate. Amazon SageMaker Model Monitor utilizza regole per rilevare la deriva dei dati e ti avvisa quando si verifica. Per monitorare la qualità dei dati, segui queste fasi:

  • Abilita acquisizione dei dati. In questo modo si acquisiscono input e output da un endpoint di inferenza in tempo reale o da un processo di trasformazione di batch, archiviando i dati in Amazon S3. Per ulteriori informazioni, consulta Acquisizione dei dati.

  • Crea una linea di base In questa fase, esegui un processo di base che analizza un set di dati di input fornito. La linea di base calcola le statistiche e i vincoli dello schema della linea di base per ogni funzionalità utilizzando Deequ, una libreria open source basata su Apache Spark, che viene utilizzata per misurare la qualità dei dati in set di dati di grandi dimensioni. Per ulteriori informazioni, consulta Creazione di una linea di base.

  • Definisci e pianifica i processi di monitoraggio della qualità dei dati. Per informazioni specifiche ed esempi di codice relativi ai processi di monitoraggio della qualità dei dati, consultaPianifica i processi di monitoraggio della qualità dei dati. Per informazioni generali sul monitoraggio dei processi, consulta Pianificazione delle attività di monitoraggio.

    • Facoltativamente, utilizza script di preelaborazione e post-elaborazione per trasformare i dati derivanti dall'analisi della qualità dei dati. Per ulteriori informazioni, consulta Pre-elaborazione e post-elaborazione.

  • Visualizza i parametri sulla qualità dei dati. Per ulteriori informazioni, consulta Schema per le statistiche (file statistics.json).

  • Integra il monitoraggio della qualità dei dati con Amazon CloudWatch. Per ulteriori informazioni, consulta CloudWatch Metriche.

  • Interpreta i risultati di un processo di monitoraggio. Per ulteriori informazioni, consulta Interpretazione dei risultati.

  • Usa SageMaker Studio per abilitare il monitoraggio della qualità dei dati e visualizzare i risultati se utilizzi un endpoint in tempo reale. Per ulteriori informazioni, consulta Visualizza i risultati per gli endpoint in tempo reale in Amazon Studio SageMaker .

Nota

Model Monitor calcola i parametri e le statistiche del modello solo su dati tabulari. Ad esempio, è possibile monitorare anche un modello di classificazione delle immagini che utilizza le immagini come input e genera un'etichetta sulla base di tale immagine. Il monitoraggio dei modelli sarebbe in grado di calcolare parametri e statistiche per l'output, non per l'input.