Usa un widget interattivo per la preparazione dei dati in un notebook Amazon SageMaker Studio Classic per ottenere informazioni dettagliate sui dati - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Usa un widget interattivo per la preparazione dei dati in un notebook Amazon SageMaker Studio Classic per ottenere informazioni dettagliate sui dati

Usa il widget Data Wrangler per la preparazione dei dati per interagire con i tuoi dati, ottenere visualizzazioni, esplorare informazioni utili e risolvere problemi di qualità dei dati.

Puoi accedere al widget di preparazione dei dati da un notebook Amazon SageMaker Studio Classic. Per ogni colonna, il widget crea una visualizzazione che ti aiuta a comprenderne meglio la distribuzione. Se una colonna presenta problemi di qualità dei dati, nell'intestazione viene visualizzato un avviso.

Per visualizzare i problemi di qualità dei dati, seleziona l'intestazione della colonna che mostra l'avviso. Puoi utilizzare le informazioni ottenute dagli approfondimenti e dalle visualizzazioni per applicare le trasformazioni integrate del widget per aiutarti a risolvere i problemi.

Ad esempio, il widget potrebbe rilevare la presenza di una colonna con un solo valore univoco e mostrarti un avviso. L'avviso offre la possibilità di eliminare la colonna dal set di dati.

Nozioni di base sul widget

Utilizza le informazioni seguenti per iniziare a utilizzare un notebook.

Apri un notebook in Amazon SageMaker Studio Classic. Per informazioni su come aprire un notebook, consulta Crea o apri un notebook Amazon SageMaker Studio Classic.

Importante

Per eseguire il widget, il notebook deve utilizzare una delle seguenti immagini:

  • Python 3 (Data Science) con Python 3.7

  • Python 3 (Data Science 2.0) con Python 3.8

  • Python 3 (Data Science 3.0) con Python 3.10

  • SparkAnalytics 1.0

  • SparkAnalytics 2,0

Per ulteriori informazioni sulle immagini , consulta SageMaker Immagini Amazon disponibili per l'uso con Studio Classic.

Utilizza il codice seguente per importare il widget di preparazione dei dati e i pandas. Il widget utilizza i dataframe Pandas per analizzare i dati.

import pandas as pd import sagemaker_datawrangler

Il codice di esempio seguente carica un file nel dataframe chiamato df.

df = pd.read_csv("example-dataset.csv")

Puoi utilizzare un set di dati in qualsiasi formato che è possibile caricare come oggetto dataframe pandas. Per ulteriori informazioni sui formati pandas, consulta IO tools (text,, CSVHDF5,...).

La cella seguente esegue la variabile df per avviare il widget.

df

La parte superiore del dataframe ha le seguenti opzioni:

  • Visualizza la tabella Pandas: passa dalla visualizzazione interattiva a una tabella Pandas.

  • Usa tutte le righe del tuo set di dati per calcolare gli approfondimenti. L'utilizzo dell'intero set di dati potrebbe aumentare il tempo necessario per generare gli approfondimenti. — Se non selezioni l'opzione, Data Wrangler calcola gli approfondimenti per le prime 10.000 righe del set di dati.

Il dataframe mostra le prime 1000 righe del set di dati. L'intestazione di ogni colonna ha un grafico a barre in pila che mostra le caratteristiche della colonna. Mostra la proporzione di valori validi, valori non validi e valori mancanti. Puoi passare il mouse sulle diverse parti del grafico a barre in pila per ottenere le percentuali calcolate.

Ogni colonna ha una visualizzazione nell'intestazione. Di seguito vengono illustrati i tipi di visualizzazione che le colonne possono avere:

  • Categorico: grafico a barre

  • Numerico: istogramma

  • Datetime: grafico a barre

  • Testo: grafico a barre

Per ogni visualizzazione, il widget di preparazione dei dati evidenzia i valori anomali in arancione.

Quando scegli una colonna, si apre un pannello laterale. Il pannello laterale mostra la scheda Approfondimenti. Il riquadro fornisce un conteggio per i seguenti tipi di valori:

  • Valori non validi: valori il cui tipo non corrisponde al tipo di colonna.

  • Valori mancanti: valori mancanti, ad esempio NaN o None.

  • Valori validi: valori che non sono né mancanti né non validi.

Per le colonne numeriche, la scheda Approfondimenti mostra le seguenti statistiche di riepilogo:

  • Minimo: il valore minimo.

  • Massimo: il valore massimo.

  • Media: la media dei valori.

  • Modalità: il valore che appare più frequentemente.

  • Deviazione standard: la deviazione standard dei valori.

Per le colonne categoriche, la scheda Approfondimenti mostra le seguenti statistiche di riepilogo:

  • Valori univoci: il numero di valori univoci nella colonna.

  • Superiore: il valore che appare più frequentemente.

Le colonne con icone di avviso nelle intestazioni presentano problemi di qualità dei dati. Scegliendo una colonna si apre una scheda Qualità dei dati che puoi utilizzare per trovare le trasformazioni che ti aiutano a risolvere il problema. Un avviso ha uno dei seguenti livelli di gravità:

  • Basso: problemi che potrebbero non influire sull'analisi, ma che possono essere utili da risolvere.

  • Medio: problemi che potrebbero influire sull'analisi, ma che probabilmente non sono fondamentali da risolvere.

  • Alto: problemi gravi che consigliamo vivamente di risolvere.

Nota

Il widget ordina la colonna per mostrare i valori che presentano problemi di qualità dei dati nella parte superiore del dataframe. Evidenzia inoltre i valori che causano i problemi. Il colore dell'evidenziazione corrisponde al livello di gravità.

In basso SUGGESTEDTRANSFORMS, puoi scegliere una trasformazione per risolvere il problema della qualità dei dati. Il widget può offrire più trasformazioni che possono risolvere il problema. Può offrire consigli per le trasformazioni più adatte al problema. Puoi spostare il cursore sulla trasformazione per ottenere maggiori informazioni al riguardo.

Per applicare una trasformazione al set di dati, scegli Applica ed esporta codice. La trasformazione modifica il set di dati e aggiorna la visualizzazione con valori modificati. Il codice per la trasformazione viene visualizzato nella seguente cella del notebook. Se applichi trasformazioni aggiuntive al set di dati, il widget aggiunge le trasformazioni alla cella. Puoi utilizzare il codice generato dal widget per effettuare le seguenti operazioni:

  • Personalizzalo per adattarlo meglio alle tue esigenze.

  • Usalo nei tuoi flussi di lavoro.

Puoi riprodurre tutte le trasformazioni che hai effettuato rieseguendo tutte le celle del notebook.

Il widget può fornire approfondimenti e avvisi per la colonna di destinazione. La colonna di destinazione è la colonna che stai cercando di prevedere. Utilizza la procedura seguente per ottenere informazioni dettagliate sulla colonna di destinazione.

Per ottenere informazioni dettagliate sulla colonna di destinazione, procedi come segue.

  1. Scegli la colonna che stai usando come colonna di destinazione.

  2. Scegli Seleziona come colonna di destinazione.

  3. Scegli il tipo di problema. Le informazioni e gli avvisi del widget sono personalizzati in base ai tipi di problema. I tipi di problemi sono i seguenti:

    • Classificazione: la colonna di destinazione contiene dati categorici.

    • Regressione: la colonna di destinazione contiene dati numerici.

  4. Seleziona Esegui.

  5. (Facoltativo) In Approfondimenti colonna di destinazione, scegli una delle trasformazioni suggerite.

Riferimento per gli approfondimenti e le trasformazioni nel widget

Per le colonne delle funzionalità (colonne che non sono la colonna di destinazione), puoi ottenere le seguenti informazioni per avvisarti di problemi con il tuo set di dati.

  • Valori mancanti: nella colonna mancano valori come None, NaN (non un numero) o NaT (non un timestamp). Molti algoritmi di machine learning non supportano i valori mancanti nei dati di input. Compilarli o eliminare le righe con i dati mancanti è quindi una fase cruciale della preparazione dei dati. Se vedi l'avviso sui valori mancanti, puoi utilizzare una delle seguenti trasformazioni per correggere il problema.

    • Elimina le righe mancanti: elimina le righe con valori mancanti. Ti consigliamo di eliminare le righe quando la percentuale di righe con dati mancanti è piccola e l'imputazione dei valori mancanti non è appropriata.

    • Sostituisci con nuovo valore: sostituisce i valori testuali mancanti con. Other Puoi modificare Other in un valore diverso nel codice di output. Sostituisce i valori numerici mancanti con 0.

    • Sostituisci con media: sostituisce i valori mancanti con la media della colonna.

    • Sostituisci con media: sostituisce i valori mancanti con la media della colonna.

    • Elimina colonna: elimina la colonna con i valori mancanti dal set di dati. Ti consigliamo di eliminare l'intera colonna quando c'è un'alta percentuale di righe con dati mancanti.

  • Valori mancanti mascherati: la colonna presenta valori mancanti mascherati. Un valore mancante mascherato è un valore che non è esplicitamente codificato come valore mancante. Ad esempio, invece di utilizzare NaN per indicare un valore mancante, il valore potrebbe essere Placeholder. Per gestire i valori mancanti, puoi utilizzare una delle seguenti trasformazioni:

    • Elimina le righe mancanti: elimina le righe con valori mancanti.

    • Sostituisci con nuovo valore: sostituisce i valori testuali mancanti con. Other Puoi modificare Other in un valore diverso nel codice di output. Sostituisce i valori numerici mancanti con 0.

  • Colonna costante: la colonna ha un solo valore. Non ha quindi alcun potere predittivo. Consigliamo vivamente di utilizzare la trasformazione Elimina colonna per eliminare la colonna dal set di dati.

  • Colonna ID: la colonna non ha valori ripetuti. Tutti i valori nella colonna sono univoci. Potrebbero essere entrambe IDs le chiavi del database. Senza informazioni aggiuntive, la colonna non ha alcun potere predittivo. Consigliamo vivamente di utilizzare la trasformazione Elimina colonna per eliminare la colonna dal set di dati.

  • Cardinalità elevata: la colonna ha un'alta percentuale di valori univoci. L'elevata cardinalità limita il potere predittivo delle colonne categoriche. Esamina l'importanza della colonna nella tua analisi e valuta la possibilità di utilizzare la trasformazione Elimina colonna per eliminarla.

Per le colonne di destinazione, puoi ottenere le seguenti informazioni per avvisarti di problemi con il tuo set di dati. Puoi utilizzare la trasformazione suggerita fornita con l'avviso per correggere il problema.

  • Tipi di dati misti in destinazione (regressione): nella colonna di destinazione sono presenti alcuni valori non numerici. Potrebbero esserci errori di immissione dei dati. Ti consigliamo di rimuovere le righe con valori che non possono essere convertiti.

  • Etichetta frequente: alcuni valori nella colonna di destinazione vengono visualizzati più frequentemente di quanto sarebbe normale nel contesto della regressione. Potrebbe esserci un errore nella raccolta o nell'elaborazione dei dati. Una categoria che appare frequentemente potrebbe indicare che il valore viene utilizzato come valore predefinito o che funge da segnaposto per i valori mancanti. Consigliamo di utilizzare la trasformazione Sostituisci con nuovo valore per sostituire i valori mancanti con. Other

  • Troppo poche istanze per classe: la colonna di destinazione contiene categorie che appaiono raramente. Alcune categorie non hanno abbastanza righe per rendere utile la colonna di destinazione. Puoi utilizzare le seguenti trasformazioni:

    • Elimina destinazione rara: elimina i valori univoci con meno di dieci osservazioni. Ad esempio, elimina il valore cat se appare nove volte nella colonna.

    • Sostituisci destinazione rara. sostituisce le categorie che appaiono raramente nel set di dati con il valore Other.

  • Classi troppo sbilanciate (classificazione multi-classe): nel set di dati vi sono categorie che appaiono molto più frequentemente rispetto alle altre categorie. Lo squilibrio tra le classi potrebbe influire sulla precisione della previsione. Per le previsioni più accurate possibili, consigliamo di aggiornare il set di dati con righe contenenti le categorie che attualmente appaiono meno frequentemente.

  • Grande quantità di classi/troppe classi: nella colonna di destinazione è presente un gran numero di classi. Avere molte classi potrebbe comportare tempi di addestramento più lunghi o una scarsa qualità predittiva. Ti consigliamo di effettuare una delle seguenti operazioni:

    • Raggruppamento di alcune categorie in una categoria a sé stante. Ad esempio, se sei categorie sono strettamente correlate, consigliamo di utilizzare un'unica categoria per ciascuna categoria.

    • Utilizzo di un algoritmo ML resistente a più categorie.