Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esegui un'analisi esplorativa dei dati () EDA
Data Wrangler include analisi integrate che ti aiutano a generare visualizzazioni e analisi dei dati in pochi clic. Puoi anche creare analisi personalizzate utilizzando il tuo codice.
Puoi aggiungere un'analisi a un dataframe selezionando una fase nel flusso di dati e quindi scegliendo Aggiungi analisi. Per accedere a un'analisi che hai creato, seleziona la fase che contiene l'analisi e seleziona l'analisi.
Le analisi vengono generate utilizzando un campione di massimo 200.000 righe del set di dati e puoi configurare la dimensione del campione. Per ulteriori informazioni sulla modifica della dimensione del campione del flusso di dati, consulta. Modifica la configurazione di campionamento del flusso di dati
Nota
Le analisi sono ottimizzate per dati con 1000 o meno colonne. Potresti riscontrare una certa latenza durante la generazione di analisi per dati con colonne aggiuntive.
Puoi aggiungere l'analisi seguente a un dataframe:
-
Visualizzazioni dei dati, inclusi istogrammi e grafici a dispersione.
-
Un breve riepilogo del set di dati, incluso il numero di voci, i valori minimo e massimo (per i dati numerici) e le categorie più e meno frequenti (per i dati categoriali).
-
Un modello rapido del set di dati, che può essere utilizzato per generare un punteggio di importanza per ciascuna funzionalità.
-
Un report sulla perdita di dati, che puoi utilizzare per determinare se una o più funzionalità sono fortemente correlate alla funzionalità di destinazione.
-
Una visualizzazione personalizzata che utilizza il tuo codice.
Utilizza le seguenti sezioni per avere ulteriori informazioni su queste opzioni.
Ottieni approfondimenti sui dati e sulla loro qualità
Utilizza il Report della qualità e dei dettagli dei dati per eseguire un'analisi dei dati che hai importato in Data Wrangler. Si consiglia di creare il report dopo l'importazione del set di dati. Puoi utilizzare il report per aiutarti a pulire ed elaborare i tuoi dati. Il report fornisce informazioni come il numero di valori mancanti e il numero di valori anomali. In caso di problemi con i dati, come la perdita o lo squilibrio di dati di destinazione, il report sulle informazioni può richiamare l'attenzione su tali problemi.
Utilizza la procedura seguente per creare un report Qualità e dettagli dei dati. Si presuppone che tu abbia già importato un set di dati nel flusso di Data Wrangler.
Per creare un report Qualità e dettagli dei dati
-
Scegli l'icona con i puntini di sospensione accanto a un nodo nel flusso di Data Wrangler.
-
Seleziona Ottieni dettagli dei dati.
-
Per il tipo di analisi, seleziona Data Quality and Insights Report.
-
In Nome dell'analisi, specifica un nome per il report dei dettagli.
-
In Tipo di problema, specifica Regressione o Classificazione.
-
Per la colonna Target, specifica la colonna di destinazione.
-
In Dimensione dei dati, specifica uno dei seguenti valori:
-
Set di dati campionato: utilizza il campione interattivo del flusso di dati, che può contenere fino a 200.000 righe del set di dati. Per informazioni su come modificare la dimensione del campione, consulta. Modifica la configurazione di campionamento del flusso di dati
-
Set di dati completo: utilizza il set di dati completo della fonte di dati per creare il rapporto.
Nota
La creazione di un report Data Quality and Insights sull'intero set di dati utilizza un processo di SageMaker elaborazione Amazon. Un SageMaker processo di elaborazione fornisce le risorse di calcolo aggiuntive necessarie per ottenere informazioni dettagliate su tutti i tuoi dati. Per ulteriori informazioni sui SageMaker processi di elaborazione, vedereCarichi di lavoro di trasformazione dei dati con Processing SageMaker .
-
-
Scegli Create (Crea) .
I seguenti argomenti mostrano le sezioni del report:
Puoi scaricare il report o visualizzarlo online. Per scaricare il report, scegli il pulsante di download nell'angolo in alto a destra dello schermo.
Riepilogo
Il report dei dettagli contiene un breve riepilogo dei dati che include informazioni generali come valori mancanti, valori non validi, tipi di funzionalità, conteggi dei valori anomali e altro ancora. Può anche includere avvisi di elevata gravità che indicano probabili problemi con i dati. Si consiglia di esaminare gi avvisi.
Colonna di destinazione
Quando crei il rapporto Data Quality and Insights, Data Wrangler ti offre la possibilità di selezionare una colonna di destinazione. Una colonna di destinazione è una colonna che stai cercando di prevedere. Quando scegli una colonna di destinazione, Data Wrangler crea automaticamente un'analisi della colonna di destinazione. Inoltre classifica le funzionalità in base al loro potere predittivo. Quando selezioni una colonna di destinazione, devi specificare se stai cercando di risolvere una regressione o un problema di classificazione.
Per la classificazione, Data Wrangler mostra una tabella e un istogramma delle classi più comuni. Una classe è una categoria. Presenta inoltre osservazioni, o righe, con un valore di destinazione mancante o non valido.
Per la regressione, Data Wrangler mostra un istogramma di tutti i valori nella colonna di destinazione. Presenta inoltre osservazioni, o righe, con un valore obiettivo mancante, non valido o anomalo.
Modello rapido
Il modello rapido fornisce una stima della qualità prevista di un modello che si addestra sulla base dei dati.
Data Wrangler suddivide i dati in file di addestramento e convalida. Utilizza l'80% dei campioni per l’addestramento e il 20% dei valori per la convalida. Per la classificazione, il campione viene suddiviso in strati. Per una suddivisione stratificata, ogni partizione di dati ha la stessa percentuale di etichette. Per problemi di classificazione, è importante avere la stessa percentuale di etichette tra i fold di addestramento e di classificazione. Data Wrangler addestra il XGBoost modello con gli iperparametri predefiniti. Applica l'arresto anticipato dei dati di convalida ed esegue una preelaborazione minima delle funzionalità.
Per i modelli di classificazione, Data Wrangler restituisce sia un riepilogo del modello che una matrice di confusione.
Per ulteriori informazioni sulle informazioni restituite dal riepilogo del modello di classificazione, consulta. Definizioni
Una matrice di confusione fornisce le seguenti informazioni:
-
Il numero di volte in cui l'etichetta prevista corrisponde all'etichetta vera.
-
Il numero di volte in cui l'etichetta prevista non corrisponde all'etichetta vera.
L'etichetta vera rappresenta un'osservazione effettiva nei dati. Ad esempio, se utilizzi un modello per rilevare transazioni fraudolente, la vera etichetta rappresenta una transazione che è effettivamente fraudolenta o non fraudolenta. L'etichetta prevista rappresenta l'etichetta che il modello assegna ai dati.
Puoi utilizzare la matrice di confusione per vedere quanto bene il modello prevede la presenza o l'assenza di una condizione. Se prevedi transazioni fraudolente, puoi utilizzare la matrice di confusione per avere un'idea sia della sensibilità che della specificità del modello. La sensibilità si riferisce alla capacità del modello di rilevare transazioni fraudolente. La specificità si riferisce alla capacità del modello di evitare di rilevare transazioni non fraudolente come fraudolente.
Sintesi delle funzionalità
Quando specifichi una colonna di destinazione, Data Wrangler ordina le funzionalità in base alla loro potenza di previsione. La potenza di previsione viene misurata sui dati dopo averli suddivisi in pieghe di addestramento all'80% e di convalida per il 20%. Data Wrangler inserisce un modello per ogni funzionalità separatamente nella cartella di addestramento. Applica una preelaborazione minima delle funzionalità e misura le prestazioni di previsione sui dati di convalida.
Normalizza i punteggi nell'intervallo [0,1]. I punteggi di previsione più alti indicano le colonne più utili per prevedere da sole l'obiettivo. I punteggi più bassi indicano colonne che non sono predittive della colonna di destinazione.
È raro che una colonna che di per sé non è predittiva lo sia quando viene utilizzata insieme ad altre colonne. Puoi utilizzare con sicurezza i punteggi di previsione per determinare se una funzionalità del tuo set di dati è predittiva.
Un punteggio basso di solito indica che la funzionalità è ridondante. Un punteggio pari a 1 implica capacità predittive perfette, il che spesso indica una perdita dei dati di destinazione. La perdita dei dati di destinazione si verifica in genere quando il set di dati contiene una colonna che non è disponibile al momento della previsione. Ad esempio, potrebbe essere un duplicato della colonna di destinazione.
Esempi
Data Wrangler fornisce informazioni sull'eventuale presenza di campioni anomali o duplicati nel set di dati.
Data Wrangler rileva campioni anomali utilizzando l'algoritmo della foresta di isolamento. La foresta di isolamento associa un punteggio di anomalia a ciascun campione (riga) del set di dati. Punteggi di anomalia bassi indicano campioni anomali. I punteggi più alti sono associati a campioni non anomali. I campioni con un punteggio di anomalia negativo sono generalmente considerati anomali e i campioni con un punteggio di anomalia positivo sono considerati non anomali.
Quando si esamina un campione che potrebbe essere anomalo, si consiglia di prestare attenzione ai valori insoliti. Ad esempio, potresti avere valori anomali derivanti da errori nella raccolta e nell'elaborazione dei dati. Di seguito è riportato un esempio dei campioni più anomali secondo l'implementazione dell'algoritmo della foresta di isolamento da parte di Data Wrangler. Si consiglia di utilizzare la conoscenza del dominio e la logica aziendale quando si esaminano i campioni anomali.
Data Wrangler rileva le righe duplicate e calcola il rapporto tra le righe duplicate nei dati. Alcune origini dati potrebbero includere duplicati validi. Altre origini dati potrebbero avere duplicati che indicano problemi nella raccolta dei dati. I campioni duplicati derivanti da una raccolta errata dei dati potrebbero interferire con i processi di machine learning che si basano sulla suddivisione dei dati in moduli di addestramento e convalida indipendenti.
Di seguito sono riportati alcuni elementi del rapporto di approfondimento che possono essere influenzati da campioni duplicati:
-
Modello rapido
-
Stima della potenza di previsione
-
Ottimizzazione automatica degli iperparametri
È possibile rimuovere campioni duplicati dal set di dati utilizzando la trasformazione Elimina duplicati in Gestisci righe. Data Wrangler mostra le righe duplicate più frequentemente.
Definizioni
Di seguito sono riportate le definizioni dei termini tecnici utilizzati nel report di analisi dei dati.
Report di bias
SageMaker Canvas fornisce il rapporto sulle distorsioni in Data Wrangler per aiutarti a scoprire potenziali pregiudizi nei dati. Il rapporto sulle distorsioni analizza la relazione tra la colonna di destinazione (etichetta) e una colonna che ritieni possa contenere distorsioni (variabile sfaccettata). Ad esempio, se stai cercando di prevedere la conversione dei clienti, la variabile facet potrebbe essere l'età del cliente. Il rapporto sulle distorsioni può aiutarti a determinare se i tuoi dati sono orientati o meno verso una determinata fascia di età.
Per generare un rapporto sulle distorsioni in Canvas, procedi come segue:
Nel flusso di dati in Data Wrangler, scegli l'icona Altre opzioni ( ) accanto a un nodo del flusso.
Dal menu contestuale, scegli Ottieni approfondimenti sui dati.
Si apre il pannello laterale Crea analisi. Nel menu a discesa Tipo di analisi, seleziona Bias Report.
Nel campo Nome dell'analisi, inserisci un nome per il rapporto di distorsione.
Nel menu a discesa Seleziona la colonna prevista dal modello (target), seleziona la colonna di destinazione.
Per La colonna prevista è un valore o una soglia? , seleziona Valore se la colonna di destinazione contiene valori categorici o Soglia se contiene valori numerici.
In Valore previsto (o Soglia prevista, a seconda della selezione effettuata nel passaggio precedente), inserisci il valore o i valori della colonna di destinazione che corrispondono a un risultato positivo. Ad esempio, se si prevede la conversione dei clienti, il valore potrebbe
yes
indicare che un cliente è stato convertito.Nel menu a discesa Seleziona la colonna da analizzare per rilevare eventuali distorsioni, seleziona la colonna che ritieni possa contenere distorsioni, nota anche come variabile facet.
Per La colonna è un valore o una soglia? , seleziona Valore se la variabile facet ha valori categorici o Soglia se ha valori numerici.
Per Valori di colonna da analizzare per rilevare eventuali distorsioni (o Soglia di colonna per analizzare eventuali distorsioni, a seconda della selezione effettuata nel passaggio precedente), inserite il valore o i valori che desiderate analizzare per eventuali distorsioni. Ad esempio, se stai verificando l'eventuale presenza di pregiudizi nei confronti dei clienti di età superiore a una certa età, utilizza l'inizio di tale fascia di età come soglia.
Per Scegli le metriche di pregiudizio, seleziona le metriche di pregiudizio che desideri includere nel rapporto sui pregiudizi. Passa il mouse sulle icone informative per ulteriori informazioni su ciascuna metrica.
(Facoltativo) Quando viene richiesta l'opzione Vuoi analizzare metriche aggiuntive? , seleziona Sì per visualizzare e includere altre metriche di distorsione.
Quando sei pronto per creare il rapporto sulle distorsioni, scegli Aggiungi.
Una volta generato, il rapporto offre una panoramica delle metriche di pregiudizio selezionate. Puoi visualizzare il rapporto sulle distorsioni in qualsiasi momento dalla scheda Analisi del flusso di dati.
Istogramma
Utilizza gli istogrammi per visualizzare i conteggi dei valori delle funzionalità per una funzionalità specifica. Puoi esaminare le relazioni tra le funzionalità utilizzando l'opzione Colora per.
Puoi utilizzare la funzionalità Facet per per creare istogrammi di una colonna, per ogni valore in un'altra colonna.
Grafico a dispersione
Usa la funzionalità Grafico a dispersione per esaminare la relazione tra le funzionalità. Per creare un grafico a dispersione, seleziona una funzionalità da tracciare sull'asse X e sull'asse Y. Entrambe queste colonne devono essere colonne di tipo numerico.
Puoi colorare i grafici a dispersione in base a una colonna aggiuntiva.
Inoltre, puoi suddividere i grafici a dispersione in base alle funzionalità.
Riepilogo della tabella
Utilizza l'analisi Riepilogo della tabella per riepilogare rapidamente i dati.
Per le colonne con dati numerici, inclusi dati di log e float, una tabella di riepilogo riporta il numero di voci (conteggio), minimo (min), massimo (max), di media e deviazione standard (stddev) per ogni colonna.
Per le colonne con dati non numerici, incluse le colonne con dati di stringa, booleani o data/ora, un riepilogo della tabella riporta il numero di voci (conteggio), il valore meno frequente (min) e il valore più frequente (max).
Modello rapido
Usa la visualizzazione Modello rapido per valutare rapidamente i tuoi dati e generare punteggi di importanza per ogni funzionalità. Un punteggio di importanza della funzionalità
Quando si crea un grafico di modello rapido, si seleziona un set di dati da valutare e un'etichetta di destinazione rispetto alla quale si desidera confrontare l'importanza delle funzionalità. Data Wrangler esegue le seguenti operazioni:
-
Deduce i tipi di dati per l'etichetta di destinazione e ogni funzionalità nel set di dati selezionato.
-
Determina il tipo di problema. In base al numero di valori distinti nella colonna dell'etichetta, Data Wrangler determina se si tratta di un tipo di problema di regressione o classificazione. Data Wrangler imposta una soglia categorica su 100. Se ci sono più di 100 valori distinti nella colonna dell'etichetta, Data Wrangler lo classifica come un problema di regressione; in caso contrario, viene classificato come un problema di classificazione.
-
Preelabora le funzionalità e i dati delle etichette per l’addestramento. L'algoritmo utilizzato richiede funzionalità di codifica in tipo vettoriale e etichette di codifica in doppio tipo.
-
Addestra un algoritmo forestale casuale con il 70% dei dati. Spark's RandomForestRegressor
viene utilizzato per addestrare un modello per problemi di regressione. RandomForestClassifier Viene utilizzato per addestrare un modello per problemi di classificazione. -
Valuta un modello di foresta casuale con il restante 30% di dati. Data Wrangler valuta i modelli di classificazione utilizzando un punteggio F1 e valuta i modelli di regressione utilizzando un punteggio. MSE
-
Calcola l'importanza delle funzionalità per ogni funzionalità utilizzando il metodo di importanza Gini.
Obiettivo: perdita
La perdita dei dati di destinazione si verifica quando in un set di dati di addestramento di machine learning sono presenti dati fortemente correlati all'etichetta di destinazione, ma non disponibili nei dati del mondo reale. Ad esempio, è possibile che nel set di dati sia presente una colonna che funge da proxy per la colonna che si desidera prevedere con il modello.
Quando utilizzi l'analisi Perdita di dati di destinazione, devi specificare quanto segue:
-
Destinazione: questa è la funzionalità in merito alla quale desideri che il tuo modello ML sia in grado di fare previsioni.
-
Tipo di problema: questo è il tipo di problema di machine learning su cui stai lavorando. Il tipo di problema può essere di classificazione o regressione.
-
(Facoltativo) Numero massimo di funzionalità: si tratta del numero massimo di funzionalità da presentare nella visualizzazione, che mostra le funzionalità classificate in base al rischio di perdita di dati.
Per la classificazione, l'analisi delle perdite target utilizza l'area sotto la caratteristica operativa del ricevitore, o la ROC curva AUC - per ogni colonna, fino alle caratteristiche Max. Per la regressione, utilizza un coefficiente di determinazione, o parametro R2.
La ROC curva AUC - fornisce una metrica predittiva, calcolata individualmente per ogni colonna utilizzando la convalida incrociata, su un campione di un massimo di circa 1000 righe. Un punteggio pari a 1 indica capacità predittive perfette, il che spesso indica una perdita dei dati di destinazione. Un punteggio pari o inferiore a 0,5 indica che le informazioni sulla colonna non sono in grado di fornire, da sole, alcuna informazione utile per prevedere l'obiettivo. Anche se può succedere che una colonna di per sé non sia informativa ma sia utile per prevedere l'obiettivo se utilizzata insieme ad altre funzionalità, un punteggio basso potrebbe indicare che la funzionalità è ridondante.
Multicollinearità
La multicollinearità è una circostanza in cui due o più variabili predittive sono correlate tra loro. Le variabili predittive sono le funzionalità del set di dati che utilizzi per prevedere una variabile di destinazione. In presenza di multicollinearità, le variabili predittive non sono solo predittive della variabile di destinazione, ma anche predittive l'una dell'altra.
È possibile utilizzare la selezione delle feature Variance Inflation Factor (VIF), Principal Component Analysis (PCA) o Lasso come misure della multicollinearità dei dati. Per ulteriori informazioni, consulta gli argomenti seguenti.
Rileva anomalie nei dati delle serie temporali
Puoi utilizzare la visualizzazione del rilevamento delle anomalie per individuare i valori anomali nei dati di serie temporali. Per comprendere cosa determina un'anomalia, devi capire che scomponiamo le serie temporali in un termine previsto e un termine di errore. Consideriamo la stagionalità e l'andamento delle serie temporali come termine previsto. Trattiamo i residui come termine di errore.
Per il termine di errore, si specifica una soglia come il numero di deviazioni standard, il residuo può essere lontano dalla media perché venga considerato un'anomalia. Ad esempio, puoi specificare una soglia come 3 deviazioni standard. Qualsiasi residuo superiore a 3 deviazioni standard dalla media è un'anomalia.
È possibile utilizzare la procedura seguente per eseguire un'analisi di rilevamento delle anomalie.
-
Apri il flusso di dati Data Wrangler.
-
Nel flusso di dati, in Tipi di dati, scegli + e seleziona Aggiungi analisi.
-
Per Tipo di analisi, scegli Serie temporali.
-
Per Visualizzazione, scegli Rilevamento delle anomalie.
-
Per Soglia di anomalia, scegli la soglia per cui un valore è considerato un'anomalia.
-
Scegli Anteprima per generare un'anteprima dell'analisi.
-
Scegli Aggiungi per aggiungere la trasformazione al flusso di dati di Data Wrangler.
Scomposizione delle tendenze stagionali nei dati delle serie temporali
Puoi determinare se esiste una stagionalità nei dati di serie temporali utilizzando la visualizzazione Scomposizione delle tendenze stagionali. Utilizziamo il metodo STL (Seasonal Trend decomposition usingLOESS) per eseguire la scomposizione. Scomponiamo le serie temporali nelle sue componenti stagionali, di tendenza e residue. La tendenza riflette la progressione a lungo termine della serie. La componente stagionale è un segnale che ricorre in un determinato periodo di tempo. Dopo aver rimosso la tendenza e le componenti stagionali dalla serie temporale, si ottiene il residuo.
È possibile utilizzare la procedura seguente per eseguire un'analisi della scomposizione delle tendenze stagionali.
-
Apri il flusso di dati Data Wrangler.
-
Nel flusso di dati, in Tipi di dati, scegli + e seleziona Aggiungi analisi.
-
Per Tipo di analisi, scegli Serie temporali.
-
Per Visualizzazione, scegli Scomposizione delle tendenze stagionali.
-
Per Soglia di anomalia, scegli la soglia per cui un valore è considerato un'anomalia.
-
Scegli Anteprima per generare un'anteprima dell'analisi.
-
Scegli Aggiungi per aggiungere la trasformazione al flusso di dati di Data Wrangler.
Crea visualizzazioni personalizzate
Puoi aggiungere un'analisi al flusso di Data Wrangler per creare una visualizzazione personalizzata. Il tuo set di dati, con tutte le trasformazioni che hai applicato, è disponibile come Pandas. DataFramedf
Puoi accedere al dataframe chiamando la variabile.
Devi fornire la variabile di output, chart
, per memorizzare un grafico di output Altair
import altair as alt df = df.iloc[:30] df = df.rename(columns={"Age": "value"}) df = df.assign(count=df.groupby('value').value.transform('count')) df = df[["value", "count"]] base = alt.Chart(df) bar = base.mark_bar().encode(x=alt.X('value', bin=True, axis=None), y=alt.Y('count')) rule = base.mark_rule(color='red').encode( x='mean(value):Q', size=alt.value(5)) chart = bar + rule
Per creare una visualizzazione personalizzata:
-
Accanto al nodo contenente la trasformazione che desideri visualizzare, scegli +.
-
Scegli Aggiungi analisi.
-
Per Tipo di analisi, scegli Visualizzazione personalizzata.
-
Per Nome dell'analisi, specifica un nome.
-
Inserisci il codice nella casella del codice.
-
Scegli Anteprima per visualizzare in anteprima la visualizzazione.
-
Scegli Salva per aggiungere la tua visualizzazione.
Se non sai come usare il pacchetto di visualizzazione Altair in Python, puoi usare frammenti di codice personalizzati per iniziare.
Data Wrangler dispone di una raccolta ricercabile di frammenti di visualizzazione. Per utilizzare uno snippet di visualizzazione, scegli Cerca frammenti di esempio e specifica una query nella barra di ricerca.
L'esempio seguente utilizza lo snippet di codice Scatterplot Binned. Traccia un istogramma per 2 dimensioni.
Gli snippet contengono commenti per aiutarti a comprendere le modifiche da apportare al codice. In genere è necessario specificare i nomi delle colonne del set di dati nel codice.
import altair as alt # Specify the number of top rows for plotting rows_number = 1000 df = df.head(rows_number) # You can also choose bottom rows or randomly sampled rows # df = df.tail(rows_number) # df = df.sample(rows_number) chart = ( alt.Chart(df) .mark_circle() .encode( # Specify the column names for binning and number of bins for X and Y axis x=alt.X("col1:Q", bin=alt.Bin(maxbins=20)), y=alt.Y("col2:Q", bin=alt.Bin(maxbins=20)), size="count()", ) ) # :Q specifies that label column has quantitative type. # For more details on Altair typing refer to # https://altair-viz.github.io/user_guide/encoding.html#encoding-data-types