Esplorazione di dati tramite analytics - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esplorazione di dati tramite analytics

Nota

Puoi utilizzare l'analisi SageMaker Canvas solo per modelli basati su set di dati tabulari. Sono esclusi anche i modelli di previsione del testo multicategoria.

Con l'analisi in Amazon SageMaker Canvas, puoi esplorare il tuo set di dati e ottenere informazioni su tutte le tue variabili prima di creare un modello. È possibile determinare le relazioni tra le caratteristiche del tuo set di dati utilizzando matrici di correlazione. È possibile utilizzare questa tecnica per riepilogare il set di dati in una matrice che mostra le correlazioni tra due o più valori. Ciò consente di identificare e visualizzare i modelli in un determinato set di dati per un'analisi avanzata dei dati.

La matrice mostra la correlazione tra ciascuna caratteristica come positiva, negativa o neutra. Potresti voler includere funzionalità che hanno un'elevata correlazione tra loro quando crei il tuo modello. Le funzionalità che hanno poca o nessuna correlazione potrebbero essere irrilevanti per il modello e puoi eliminarle durante la creazione del modello.

Per iniziare a usare le matrici di correlazione in SageMaker Canvas, consulta la sezione seguente.

Crea una matrice di correlazione

Puoi creare una matrice di correlazione quando ti prepari a creare un modello nella scheda Build dell'applicazione Canvas. SageMaker

Per istruzioni su come iniziare a creare un modello, consulta Crea un modello.

Dopo aver iniziato a preparare un modello nell'applicazione SageMaker Canvas, effettuate le seguenti operazioni:

  1. Nella scheda Crea, scegli Visualizzatore dati.

  2. Scegli Analytics.

  3. Scegli Matrice di correlazione.

Dovresti vedere una visualizzazione simile allo screenshot seguente, che mostra fino a 15 colonne del set di dati organizzate in una matrice di correlazione.

Screenshot di una matrice di correlazione nell'applicazione Canvas.

Dopo aver creato la matrice di correlazione, è possibile personalizzarla effettuando le seguenti operazioni:

1. Scegli le tue colonne

Per Colonne, è possibile selezionare le colonne che si desidera includere nella matrice. È possibile confrontare fino a 15 colonne del tuo set di dati.

Nota

È possibile utilizzare tipi di colonna numerici, categorici o binari per una matrice di correlazione. La matrice di correlazione non supporta i tipi di colonne di dati datetime o di testo.

Per aggiungere o rimuovere colonne dalla matrice di correlazione, seleziona e deseleziona colonne dal pannello Colonne. Inoltre, puoi anche trascinare le colonne dal pannello direttamente sulla matrice. Se il set di dati contiene molte colonne, è possibile cercare le colonne desiderate nella barra delle colonne di ricerca.

Per filtrare le colonne per tipo di dati, scegli l'elenco a discesa e seleziona Tutto, Numerico o Categoriale. Selezionando Tutto vengono visualizzate tutte le colonne del set di dati, mentre i filtri Numerico e Categorico mostrano solo le colonne numeriche o categoriche del set di dati. Tieni presente che i tipi di colonne binarie sono inclusi nei filtri numerici o categorici.

Per ottenere informazioni ottimali sui dati, includi la colonna di destinazione nella matrice di correlazione. Quando includi la colonna di destinazione nella matrice di correlazione, questa appare come l'ultima caratteristica della matrice con un simbolo di destinazione.

2. Scegli il tuo tipo di correlazione

SageMaker Canvas supporta diversi tipi di correlazione o metodi per calcolare la correlazione tra le colonne.

Per modificare il tipo di correlazione, utilizza il filtro Colonne menzionato nella sezione precedente per filtrare il tipo di colonna e le colonne desiderati. Dovresti vedere il Tipo di correlazione nel pannello laterale. Per i confronti numerici, hai la possibilità di selezionare Pearson o Spearman. Per i confronti categorici, il tipo di correlazione è impostato su MI. Per i confronti categorici, il tipo di correlazione è impostato come Spearman & MI.

Per le matrici che confrontano solo colonne numeriche, il tipo di correlazione è Pearson o Spearman. La misura di Pearson valuta la relazione lineare tra due variabili continue. La misura Spearman valuta la relazione monotona tra due variabili. Sia per Pearson che per Spearman, la scala di correlazione va da -1 a 1, con entrambe le estremità della scala che indicano una correlazione perfetta (una relazione 1:1 diretta) e 0 che indica nessuna correlazione. Potresti voler selezionare Pearson se i tuoi dati hanno relazioni più lineari (come rivelato da un grafico a dispersione). Se i tuoi dati non sono lineari o contengono una combinazione di relazioni lineari e monotone, potresti voler selezionare Spearman.

Per le matrici che confrontano solo colonne categoriche, il tipo di correlazione è impostato su Mutual Information Classification (MI). Il valore MI è una misura della dipendenza reciproca tra due variabili casuali. La misura MI è su una scala da 0 a 1, dove 0 indica nessuna correlazione e 1 indica una correlazione perfetta.

Per le matrici che confrontano una combinazione di colonne numeriche e categoriche, il tipo di correlazione Spearman & MI è una combinazione dei tipi di correlazione Spearman e MI. Per le correlazioni tra due colonne numeriche, la matrice mostra il valore di Spearman. Per le correlazioni tra una colonna numerica e categorica o due colonne categoriche, la matrice mostra il valore MI.

Infine, ricorda che la correlazione non indica necessariamente una causalità. Un valore di correlazione forte indica solo che esiste una relazione tra due variabili, ma le variabili potrebbero non avere una relazione causale. Esamina attentamente le colonne di interesse per evitare distorsioni durante la creazione del modello.

3. Filtra le correlazioni

Nel pannello laterale, è possibile utilizzare la funzionalità Filtra correlazioni per filtrare l'intervallo di valori di correlazione che desideri includere nella matrice. Ad esempio, se si desidera filtrare le funzionalità che hanno solo una correlazione positiva o neutra, è possibile impostare il valore Min su 0 e il Max su 1 (i valori validi sono da -1 a 1).

Per i confronti tra Spearman e Pearson, è possibile impostare l'intervallo di correlazioni del filtro da -1 a 1, dove 0 indica che non esiste alcuna correlazione. -1 e 1 indicano che le variabili hanno rispettivamente una forte correlazione negativa o positiva.

Per i confronti MI, l'intervallo di correlazione va solo da 0 a 1, dove 0 indica che non c'è correlazione e 1 indica che le variabili hanno una forte correlazione, positiva o negativa.

Ogni caratteristica ha una correlazione perfetta (1) con se stessa. Pertanto, potresti notare che la riga superiore della matrice di correlazione è sempre 1. Se desideri escludere questi valori, è possibile utilizzare il filtro per impostare il valore massimo inferiore a 1.

Tieni presente che se la tua matrice confronta un mix di colonne numeriche e categoriche e utilizza il tipo di correlazione Spearman & MI, le correlazioni categoriche x numeriche e categoriche x categoriche (che utilizzano la misura MI) sono su una scala da 0 a 1, mentre le correlazioni numeriche x numeriche (che utilizzano la misura Spearman) sono su una scala da -1 a 1. Esamina attentamente le correlazioni di interesse per assicurarti di conoscere il tipo di correlazione utilizzato per calcolare ogni valore.

4. Scegli il metodo Visualizzazione.

Nel pannello laterale, è possibile utilizzare Visualizza per per modificare il metodo di visualizzazione della matrice. Scegli il metodo di visualizzazione numerica per mostrare il valore di correlazione (Pearson, Spearman o MI) oppure scegli il metodo di visualizzazione Size per visualizzare la correlazione con punti di dimensioni e colori diversi. Se scegli Dimensione, è possibile passare il mouse su un punto specifico sulla matrice per vedere il valore di correlazione effettivo.

5. Scegli una tavolozza colori

Nel pannello laterale, è possibile utilizzare Selezione del colore per modificare la tavolozza colori utilizzata per la scala di correlazione da negativa a positiva nella matrice. Seleziona una delle tavolozze colori alternative per modificare i colori utilizzati nella matrice.