Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Prepara i dati per la creazione di modelli
Nota
Ora puoi eseguire una preparazione avanzata dei dati in SageMaker Canvas con Data Wrangler, che ti fornisce un'interfaccia in linguaggio naturale e oltre 300 trasformazioni integrate. Per ulteriori informazioni, consulta Preparazione dei dati.
Il set di dati di machine learning potrebbe richiedere la preparazione dei dati prima di creare il modello. Potresti voler pulire i dati a causa di vari problemi, tra cui valori mancanti o valori anomali, ed eseguire l'ingegneria delle caratteristiche per migliorare la precisione del modello. Amazon SageMaker Canvas fornisce trasformazioni di dati ML con cui puoi pulire, trasformare e preparare i dati per la creazione di modelli. Puoi utilizzare queste trasformazioni sui tuoi set di dati senza alcun codice. SageMaker Canvas aggiunge le trasformazioni utilizzate alla ricetta del modello, che è una registrazione della preparazione dei dati effettuata sui dati prima di creare il modello. Qualsiasi trasformazione dati utilizzata modifica solo i dati di input per la creazione del modello e non la fonte di dati originale.
L'anteprima del set di dati mostra le prime 100 righe del set di dati. Se il tuo set di dati ha più di 20.000 righe, Canvas prende un campione casuale di 20.000 righe e visualizza in anteprima le prime 100 righe di quel campione. È possibile cercare e specificare solo i valori delle righe visualizzate in anteprima e la funzionalità di filtro filtra solo le righe visualizzate in anteprima e non l'intero set di dati.
Le seguenti trasformazioni sono disponibili in SageMaker Canvas per preparare i dati per la creazione.
Nota
È possibile utilizzare solo trasformazioni avanzate per modelli basati su set di dati tabulari. Sono esclusi anche i modelli di previsione del testo multicategoria.
Eliminazione di colonne
Puoi escludere una colonna dalla build del modello rilasciandola nella scheda Build dell'applicazione SageMaker Canvas. Deseleziona la colonna che desideri eliminare e non verrà inclusa durante la creazione del modello.
Nota
Se elimini le colonne e poi fai previsioni in batch con il tuo modello, SageMaker Canvas aggiunge le colonne eliminate al set di dati di output disponibile per il download. Tuttavia, SageMaker Canvas non aggiunge nuovamente le colonne eliminate per i modelli di serie temporali.
Filtraggio delle righe
La funzionalità di filtro filtra le righe visualizzate in anteprima (le prime 100 righe del set di dati) in base alle condizioni specificate. Il filtraggio delle righe crea un'anteprima temporanea dei dati e non influisce sulla creazione del modello. È possibile filtrare per visualizzare in anteprima le righe con valori mancanti, che contengono valori anomali o soddisfano condizioni personalizzate in una colonna a tua scelta.
Filtraggio delle righe in base ai valori mancanti
I valori mancanti sono un'occorrenza comune nei set di dati di machine learning. Se hai righe con valori nulli o vuoti in determinate colonne, potresti voler filtrare e visualizzare in anteprima tali righe.
Per filtrare i valori mancanti dai dati visualizzati in anteprima, effettua le seguenti operazioni.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegli Filtra per righe ( ).
-
Scegli la colonna in cui desideri verificare la presenza di valori mancanti.
-
Per Operazione, scegli Mancante.
SageMaker Canvas filtra le righe che contengono valori mancanti nella colonna selezionata e fornisce un'anteprima delle righe filtrate.
Filtraggio delle righe per valori anomali
I valori anomali, o valori rari nella distribuzione e nell'intervallo dei dati, possono influire negativamente sulla precisione del modello e portare a tempi di costruzione più lunghi. SageMaker Canvas consente di rilevare e filtrare le righe che contengono valori anomali nelle colonne numeriche. È possibile scegliere di definire valori anomali con deviazioni standard o un intervallo personalizzato.
Per filtrare i valori anomali nei dati, effettua le seguenti operazioni.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegli Filtra per righe ().
-
Scegli la colonna in cui desideri verificare la presenza di valori anomali.
-
Per Operazione, scegli Valore anomalo.
-
Imposta l'Intervallo di valore anomalo su Deviazione standard o Intervallo personalizzato.
-
Se scegli Deviazione standard, specifica un valore SD (deviazione standard) compreso tra 1 e 3. Se scegli Intervallo personalizzato, seleziona Percentile o Numero, quindi specifica i valori Min e Max.
L'opzione Deviazione standard rileva e filtra i valori anomali nelle colonne numeriche utilizzando media e deviazione standard. Si specifica il numero di deviazioni standard. Un valore deve variare dalla media per essere considerato un valore anomalo. Ad esempio, se si specifica 3
per DS, un valore deve scendere di più di 3 deviazioni standard dalla media per essere considerato un valore anomalo.
L'opzione Intervallo personalizzato rileva e filtra i valori anomali nelle colonne numeriche utilizzando valori minimi e massimi. Utilizza questo metodo se conosci i valori di soglia che delimitano i valori anomali. È possibile impostare il Tipo dell'intervallo su Percentile o Numero. Se scegli Percentile, i valori Min e Max devono essere il minimo e il massimo dell'intervallo di percentili (0-100) che si desidera consentire. Se scegli Numero, i valori Min e Max devono essere i valori numerici minimo e massimo che desideri filtrare nei dati.
Filtraggio delle righe in base a valori personalizzati
È possibile filtrare le righe con valori che soddisfano condizioni personalizzate. Ad esempio, potresti voler visualizzare in anteprima le righe con un valore di prezzo superiore a 100 prima di rimuoverle. Con questa funzionalità, è possibile filtrare le righe che superano la soglia impostata e visualizzare in anteprima i dati filtrati.
Per utilizzare la funzionalità di filtro personalizzato, effettua le seguenti operazioni.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegliete Filtra per righe ().
-
Scegli la Colonna che desideri verificare.
-
Seleziona il tipo di Operazione che desideri utilizzare, quindi specifica i valori per la condizione selezionata.
Per Operazione, è possibile scegliere una delle seguenti opzioni. Nota che le operazioni disponibili dipendono dal tipo di dati della colonna scelta. Ad esempio, non è possibile creare un'operazione is greater than
per una colonna contenente valori di testo.
Operazione | Tipo di dati supportati | Tipo di caratteristica supportata | Funzione |
---|---|---|---|
È uguale a |
Numerico, testo |
Binario, categorico |
Filtra le righe in cui il valore in Colonna è uguale ai valori specificati. |
Non è uguale a |
Numerico, testo |
Binario, categorico |
Filtra le righe in cui il valore in Colonna non è uguale ai valori specificati. |
È minore di |
Numerico |
N/D |
Filtra le righe in cui il valore in Colonna è minore rispetto al valore specificato. |
È minore di o uguale a |
Numerico |
N/D |
Filtra le righe in cui il valore in Colonna è minore o uguale ai valori specificati. |
È maggiore di |
Numerico |
N/D |
Filtra le righe in cui il valore in Colonna è maggiore rispetto ai valori specificati. |
È maggiore di o uguale a |
Numerico |
N/D |
Filtra le righe in cui il valore in Colonna è maggiore di o uguale al valore specificato. |
È compreso tra |
Numerico |
N/D |
Filtra le righe in cui il valore in Colonna è compreso tra o uguale ai valori specificati. |
Contiene |
Testo |
Categoriale |
Filtra le righe in cui il valore in Colonna contiene i valori specificati dall'utente. |
Inizia con |
Testo |
Categoriale |
Filtra le righe in cui il valore in Colonna inizia con un valore specificato dall'utente. |
Ends with |
Categoriale |
Categoriale |
Filtra le righe in cui il valore in Colonna termina con un valore specificato dall'utente. |
Dopo aver impostato l'operazione di filtro, SageMaker Canvas aggiorna l'anteprima del set di dati per mostrarvi i dati filtrati.
Funzioni e operatori
È possibile utilizzare funzioni e operatori matematici per l'esplorazione e la distribuzione dei dati. È possibile utilizzare le funzioni supportate da SageMaker Canvas o creare una formula personalizzata con i dati esistenti e creare una nuova colonna con il risultato della formula. Ad esempio, è possibile aggiungere i valori corrispondenti di due colonne e salvare il risultato in una nuova colonna.
È possibile nidificare le istruzioni per creare funzioni più complesse. Di seguito sono riportati alcuni esempi di funzioni nidificate che è possibile utilizzare.
-
Per calcolareBMI, puoi usare la funzione
weight / (height ^ 2)
. -
Per classificare le età, puoi utilizzare la funzione
Case(age < 18, 'child', age < 65, 'adult', 'senior')
.
È possibile specificare le funzioni nella fase di preparazione dei dati prima di creare il modello. Per importare una funzione, procedi nel modo seguente:
-
Nella scheda Crea dell'applicazione SageMaker Canvas, scegli Visualizza tutto, quindi scegli Formula personalizzata per aprire il pannello Formula personalizzata.
-
Nel pannello Formula personalizzata, è possibile scegliere una formula da aggiungere alla tua Ricetta del modello. Ogni formula viene applicata a tutti i valori nelle colonne specificate. Per le formule che accettano due o più colonne come argomenti, utilizzate colonne con tipi di dati corrispondenti; in caso contrario, nella nuova colonna viene visualizzato un errore o dei
null
valori. -
Dopo aver specificato una formula, aggiungi un nome di colonna nel campo Nome nuova colonna. SageMaker Canvas usa questo nome per la nuova colonna che viene creata.
(Facoltativo) Scegli Anteprima per visualizzare l'anteprima della trasformazione.
-
Per aggiungere la funzione alla tua Ricetta del modello, scegli Aggiungi.
SageMaker Canvas salva il risultato della funzione in una nuova colonna utilizzando il nome specificato in New Column Name. È possibile visualizzare o rimuovere le funzioni dal pannello Ricetta del modello.
SageMaker Canvas supporta i seguenti operatori per le funzioni. È possibile utilizzare il formato testo o il formato in linea per specificare la funzione.
Operatore | Descrizione | Tipi di dati supportati | Formato testo | Formato in linea |
---|---|---|---|---|
Add (Aggiungi) |
Restituisce la somma dei valori |
Numerico |
Aggiungi (vendite1, vendite2) |
vendite1 + vendite2 |
Subtract (Sottrai) |
Restituisce la differenza tra i valori |
Numerico |
Sottrai (vendite1, vendite2) |
vendite1 + vendite2 |
Multiply (Moltiplica) |
Restituisce la somma dei valori |
Numerico |
Moltiplica (vendite1, vendite2) |
vendite1 * vendite2 |
Divide (Dividi) |
Restituisce il quoziente dei valori |
Numerico |
Divide (vendite1, vendite2) |
vendite1 / vendite2 |
Mod |
Restituisce il risultato dell'operatore modulo (il resto dopo la divisione dei due valori) |
Numerico |
Mod(vendite1, vendite2) |
vendite1 % vendite2 |
Abs |
Restituisce il valore assoluto del valore |
Numerico |
Abs (vendite1) |
N/D |
Nega |
Restituisce il negativo del valore |
Numerico |
Nega (c1) |
‐c1 |
Exp |
Restituisce e (numero di Eulero) elevato alla potenza del valore |
Numerico |
Exp(vendite1) |
N/D |
Log |
Restituisce il logaritmo (in base 10) del valore |
Numerico |
Log(vendite1) |
N/D |
Ln |
Restituisce il logaritmo naturale (in base e) del valore |
Numerico |
Ln(vendite1) |
N/D |
Pow |
Restituisce il valore elevato a una potenza |
Numerico |
Pow(vendite 1, 2) |
vendite 1 ^ 2 |
Se |
Restituisce un'etichetta vera o falsa in base a una condizione specificata |
Booleano, numerico, testo |
Se(sales1>7000, 'truelabel, 'falselabel') |
N/D |
Or |
Restituisce un valore booleano che indica se uno dei valori o delle condizioni specificati è vero o meno |
Booleano |
Oppure(prezzopieno, sconto) |
prezzopieno, || sconto |
And |
Restituisce un valore booleano che indica se due dei valori o delle condizioni specificati sono vere o meno |
Booleano |
E(vendite1, vendite2) |
vendite1 && vendite2 |
Not |
Restituisce un valore booleano che è l'opposto del valore o delle condizioni specificati |
Booleano |
Not(vendite1) |
!vendite1 |
Caso |
Restituisce un valore booleano basato su istruzioni condizionali (restituisce c1 se cond1 è vero, restituisce c2 se cond2 è vero, altrimenti restituisce c3) |
Booleano, numerico, testo |
Caso(cond1, c1, cond2, c2, c3) |
N/D |
Uguale |
Restituisce un valore booleano che indica se due valori sono uguali |
Booleano, numerico, testo |
N/D |
c1 = c2 c1 == c2 |
Non uguale |
Restituisce un valore booleano che indica se due valori non sono uguali |
Booleano, numerico, testo |
N/D |
c1!= c2 |
Minore di |
Restituisce un valore booleano che indica se c1 è minore di c2 |
Booleano, numerico, testo |
N/D |
c1 < c2 |
Maggiore di |
Restituisce un valore booleano che indica se c1 è maggiore di c2 |
Booleano, numerico, testo |
N/D |
c1 > c2 |
Minore di o uguale a |
Restituisce un valore booleano che indica se c1 è minore o uguale a c2 |
Booleano, numerico, testo |
N/D |
c1 < c2 |
Maggiore di o uguale a |
Restituisce un valore booleano che indica se c1 è maggiore o uguale a c2 |
Booleano, numerico, testo |
N/D |
c1 >= c2 |
SageMaker Canvas supporta anche operatori aggregati, che possono eseguire operazioni come il calcolo della somma di tutti i valori o la ricerca del valore minimo in una colonna. È possibile utilizzare operatori di aggregazione in combinazione con operatori standard nelle funzioni. Ad esempio, per calcolare la differenza tra i valori e la media, è possibile utilizzare la funzione. Abs(height –
avg(height))
SageMaker Canvas supporta i seguenti operatori di aggregazione.
Operatore di aggregazione | Descrizione | Formato | Esempio |
---|---|---|---|
sum |
Restituisce la somma di tutti i valori in una colonna |
sum |
sum(c1) |
minimum |
Restituisce il valore minimo di una colonna |
min |
min(c2) |
maximum |
Restituisce il valore massimo di una colonna |
max |
max(c3) |
average |
Restituisce il valore medio di una colonna |
avg |
avg(c4) |
std |
Restituisce la deviazione standard di esempio di una colonna | std |
std(c1) |
stddev |
Restituisce la deviazione standard dei valori in una colonna | stddev |
stddev(c1) |
variance |
Restituisce lo scostamento imparziale dei valori di una colonna |
variance |
variance(c1) |
approx_count_distinct |
Restituisce il numero approssimativo di elementi distinti in una colonna | approx_count_distinct |
approx_count_distinct(c1) |
count |
Restituisce il numero di elementi in una colonna | count |
count(c1) |
first |
Restituisce il valore medio di una colonna |
first |
first(c1) |
last |
Restituisce l'ultimo valore di una colonna |
last |
last(c1) |
stddev_pop |
Restituisce la deviazione standard della popolazione di una colonna | stddev_pop |
stddev_pop(c1) |
variance_pop |
Restituisce lo scostamento della popolazione dei valori in una colonna |
variance_pop |
variance_pop(c1) |
Gestisci righe
Con la trasformazione Gestisci righe, è possibile ordinare, mischiare in modo casuale e rimuovere righe di dati dal set di dati.
Ordinare le righe
Per ordinare le righe di un set di dati in base a una determinata colonna, effettua le seguenti operazioni.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe, quindi scegli Ordina righe.
-
Per Ordina colonna, scegli la colonna che desideri ordinare.
-
Per Criterio di ordinamento, seleziona Crescente o Decrescente.
-
Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.
Mischiare le righe
Per mischiare casualmente le righe in un set di dati, effettua le seguenti operazioni.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe, quindi scegli Shuffle rows.
-
Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.
Eliminare le righe duplicate
Per rimuovere le righe duplicate in un set di dati, effettua le seguenti operazioni.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe, quindi scegli Elimina righe duplicate.
-
Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.
Rimuovere le righe per valori mancanti
I valori mancanti sono un'occorrenza comune nei set di dati di machine learning e possono avere un impatto sulla precisione del modello. Utilizza questa trasformazione se desideri eliminare righe con valori nulli o vuoti in determinate colonne.
Per rimuovere le righe che contengono valori mancanti in una colonna specificata, effettua le seguenti operazioni.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe.
Scegli Elimina righe per valori mancanti.
-
Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.
SageMaker Canvas rilascia le righe che contengono valori mancanti nella colonna selezionata. Dopo aver rimosso le righe dal set di dati, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se rimuovi la trasformazione dalla sezione Ricetta del modello, le righe ritornano al tuo set di dati.
Rimuovere le righe per valori anomali
I valori anomali, ovvero valori rari nella distribuzione e nell'intervallo dei dati, possono influire negativamente sulla precisione del modello e portare a tempi di creazione più lunghi. Con SageMaker Canvas, puoi rilevare e rimuovere le righe che contengono valori anomali nelle colonne numeriche. È possibile scegliere di definire valori anomali con deviazioni standard o un intervallo personalizzato.
Per rimuovere valori anomali dai dati, effettua le seguenti operazioni.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe.
Scegli Elimina righe per valori anomali.
-
Scegli la Colonna in cui desideri verificare la presenza di valori anomali.
-
Imposta l’Operatore su Deviazione standard, Intervallo numerico personalizzato o Intervallo quantile personalizzato.
-
Se scegli Deviazione standard, specifica un valore Deviazioni standard compreso tra 1 e 3. Se scegli Intervallo numerico personalizzato o Intervallo quantile personalizzato, specifica i valori minimo e massimo (numeri per gli intervalli numerici o percentili compresi tra 0 e 100% per gli intervalli quantili).
-
Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.
L'opzione Deviazione standard rileva e rimuove i valori anomali nelle colonne numeriche utilizzando la media e la deviazione standard. Si specifica il numero di deviazioni standard. Un valore deve variare dalla media per essere considerato un valore anomalo. Ad esempio, se si specifica 3
per Deviazioni standard, un valore deve scendere di più di 3 deviazioni standard dalla media per essere considerato un valore anomalo.
Le opzioni Intervallo numerico personalizzato e Intervallo quantile personalizzato rilevano e rimuovono i valori anomali nelle colonne numeriche utilizzando valori minimi e massimi. Utilizzare questo metodo se si conoscono i valori di soglia che delimitano i valori anomali. Se si sceglie un intervallo numerico, i valori Min e Max devono essere i valori numerici minimo e massimo che si desidera consentire nei dati. Se si sceglie un intervallo quantile, i valori Min e Max devono essere il minimo e il massimo dell'intervallo di percentili (0-100) che si desidera consentire.
Dopo aver rimosso le righe dal set di dati, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se rimuovi la trasformazione dalla sezione Ricetta del modello, le righe ritornano al tuo set di dati.
Rimuovere le righe iper valori personalizzati
È possibile filtrare le righe con valori che soddisfano condizioni personalizzate. Ad esempio, potresti voler escludere tutte le righe con un valore di prezzo superiore a 100 durante la creazione del modello. Con questa trasformazione, è possibile creare una regola che rimuove tutte le righe che superano la soglia impostata.
Per utilizzare la trasformazione di rimozione personalizzata, effettua le seguenti operazioni.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe.
Scegli Elimina righe per formula.
-
Scegli la Colonna che desideri verificare.
-
Seleziona il tipo di Operazione che desideri utilizzare, quindi specifica i valori per la condizione selezionata.
-
Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.
Per l'Operazione, è possibile scegliere una delle seguenti opzioni. Nota che le operazioni disponibili dipendono dal tipo di dati della colonna scelta. Ad esempio, non è possibile creare un'operazione is greater than
per una colonna contenente valori di testo.
Operazione | Tipo di dati supportati | Tipo di caratteristica supportata | Funzione |
---|---|---|---|
È uguale a |
Numerico, testo |
Binario, categorico |
Rimuove le righe in cui il valore in Colonna è uguale ai valori specificati. |
Non è uguale a |
Numerico, testo |
Binario, categorico |
Rimuove le righe in cui il valore in Colonna non è uguale ai valori specificati. |
È minore di |
Numerico |
N/D |
Rimuove le righe in cui il valore in Colonna è minore rispetto al valore specificato. |
È minore di o uguale a |
Numerico |
N/D |
Rimuove le righe in cui il valore in Colonna è minore di o uguale ai valori specificati. |
È maggiore di |
Numerico |
N/D |
Rimuove le righe in cui il valore in Colonna è maggiore rispetto al valore specificato. |
È maggiore di o uguale a |
Numerico |
N/D |
Rimuove le righe in cui il valore in Colonna è maggiore di o uguale al valore specificato. |
È compreso tra |
Numerico |
N/D |
Rimuove le righe in cui il valore in Colonna è compreso tra o uguale ai valori specificati. |
Contiene |
Testo |
Categoriale |
Rimuove le righe in cui il valore in Colonna contiene i valori specificati dall'utente. |
Inizia con |
Testo |
Categoriale |
Filtra le righe in cui il valore in Colonna inizia con un valore specificato dall'utente. |
Ends with |
Testo |
Categoriale |
Rimuove le righe in cui il valore in Colonna termina con un valore specificato dall'utente. |
Dopo aver rimosso le righe dal set di dati, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se rimuovi la trasformazione dalla sezione Ricetta del modello, le righe ritornano al tuo set di dati.
Rinominare le colonne
Con la trasformazione di ridenominazione delle colonne, è possibile rinominare le colonne nei tuoi dati. Quando si rinomina una colonna, SageMaker Canvas modifica il nome della colonna nell'input del modello.
È possibile rinominare una colonna nel set di dati facendo doppio clic sul nome della colonna nella scheda Build dell'applicazione SageMaker Canvas e inserendo un nuovo nome. Premendo il tasto Invio si invia la modifica e facendo clic in un punto qualsiasi al di fuori dell'input si annulla la modifica. Inoltre, puoi rinominare una colonna facendo clic sull'icona Altre opzioni ( ), situata alla fine della riga nella visualizzazione elenco o alla fine della cella di intestazione nella visualizzazione a griglia e scegliendo Rinomina.
Il nome della colonna non può contenere più di 32 caratteri o avere caratteri di sottolineatura doppi (__) e non puoi rinominare una colonna con lo stesso nome di un'altra colonna. Inoltre, non puoi rinominare una colonna eliminata.
Lo screenshot seguente mostra come rinominare una colonna facendo doppio clic sul nome della colonna.
Quando rinomini una colonna, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se si rimuove la trasformazione dalla sezione Ricetta del modello, la colonna torna al suo nome originale.
Gestione delle colonne
Con le seguenti trasformazioni, puoi modificare il tipo di dati delle colonne e sostituire i valori o gli outlier mancanti per colonne specifiche. SageMaker Canvas utilizza i tipi o i valori di dati aggiornati durante la creazione del modello, ma non modifica il set di dati originale. Nota che se hai eliminato una colonna dal tuo set di dati utilizzando la Eliminazione di colonne trasformazione, non puoi sostituire i valori in quella colonna.
Sostituzione dei valori mancanti
I valori mancanti sono un'occorrenza comune nei set di dati di machine learning e possono avere un impatto sulla precisione del modello. È possibile scegliere di eliminare le righe con valori mancanti, ma il tuo modello è più preciso se scegli invece di sostituire i valori mancanti. Con questa trasformazione, è possibile sostituire i valori mancanti nelle colonne numeriche con la media o la mediana dei dati in una colonna oppure è possibile anche specificare un valore personalizzato con cui sostituire i valori mancanti. Per le colonne non numeriche, è possibile sostituire i valori mancanti con la modalità (valore più comune) della colonna o con un valore personalizzato.
Utilizza questa trasformazione se desideri eliminare righe con valori nulli o vuoti in determinate colonne. Per sostituire i valori mancanti in una colonna specificata, effettua le seguenti operazioni.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci colonne.
Scegli Sostituisci i valori mancanti.
-
Scegli la Colonna in cui desideri sostituire i valori mancanti.
-
Imposta Modalità su Manuale per sostituire i valori mancanti con valori specificati dall'utente. Con l'impostazione Automatico (predefinita), SageMaker Canvas sostituisce i valori mancanti con valori imputati che meglio si adattano ai dati. Questo metodo di attribuzione viene eseguito automaticamente per ogni creazione del modello, a meno che non si specifichi la modalità Manuale.
-
Imposta il valore Sostituisci con:
-
Se la colonna è numerica, seleziona Media, Mediana o Personalizzata. Media sostituisce i valori mancanti con la media della colonna e Mediana sostituisce i valori mancanti con la mediana della colonna. Se scegli Personalizzato, devi specificare un valore personalizzato che desideri utilizzare per sostituire i valori mancanti.
-
Se la colonna è non numerica, seleziona Modalità o Personalizzato. La Modalità sostituisce i valori mancanti con la modalità, o il valore più comune, per la colonna. Per Personalizzato, devi specificare un valore personalizzato che desideri utilizzare per sostituire i valori mancanti.
-
-
Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.
Dopo aver sostituito i valori mancanti nel set di dati, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se rimuovi la trasformazione dalla sezione Ricetta del modello, i valori mancanti ritornano al tuo set di dati.
Sostituzione dei valori anomali
I valori anomali, o valori rari nella distribuzione e nell'intervallo dei dati, possono influire negativamente sulla precisione del modello e portare a tempi di costruzione più lunghi. SageMaker Canvas consente di rilevare i valori anomali nelle colonne numeriche e di sostituirli con valori che rientrano in un intervallo accettato nei dati. È possibile scegliere di definire valori anomali con deviazioni standard o un intervallo personalizzato e sostituire i valori anomali con i valori minimi e massimi nell'intervallo accettato.
Per sostituire i valori anomali nei dati, effettua le seguenti operazioni.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci colonne.
Scegli Sostituisci valori anomali.
-
Scegli la Colonna in cui desideri sostituire i valori mancanti.
-
Per Definisci valori anomali, scegli Deviazione standard, Intervallo numerico personalizzato o Intervallo quantile personalizzato.
-
Se scegli Deviazione standard, specifica un valore Deviazioni standard compreso tra 1 e 3. Se scegli Intervallo numerico personalizzato o Intervallo quantile personalizzato, specifica i valori minimo e massimo (numeri per gli intervalli numerici o percentili compresi tra 0 e 100% per gli intervalli quantili).
-
Per Sostituisci con, seleziona Intervallo min/max.
-
Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.
L'opzione Deviazione standard rileva i valori anomali nelle colonne numeriche utilizzando la media e la deviazione standard. Si specifica il numero di deviazioni standard. Un valore deve variare dalla media per essere considerato un valore anomalo. Ad esempio, se specificate 3 per le deviazioni standard, un valore deve essere inferiore a più di 3 deviazioni standard dalla media per essere considerato un valore anomalo. SageMaker Canvas sostituisce i valori anomali con il valore minimo o il valore massimo nell'intervallo accettato. Ad esempio, se configuri le deviazioni standard per includere solo valori compresi tra 200 e 300, SageMaker Canvas modifica un valore da 198 a 200 (il minimo).
Le opzioni Intervallo numerico personalizzato e Intervallo quantile personalizzato rilevano i valori anomali nelle colonne numeriche utilizzando valori minimi e massimi. Utilizzare questo metodo se si conoscono i valori di soglia che delimitano i valori anomali. Se scegli un intervallo numerico, i valori Min e Max devono essere i valori numerici minimo e massimo che desideri consentire. SageMaker Canvas sostituisce tutti i valori che non rientrano nei valori minimo e massimo con i valori minimo e massimo. Ad esempio, se l'intervallo consente solo valori compresi tra 1 e 100, SageMaker Canvas modifica un valore da 102 a 100 (il massimo). Se si sceglie un intervallo di quantili, i valori Min e Max devono essere il minimo e il massimo dell'intervallo di percentili (0—100) che si desidera consentire.
Dopo aver sostituito i valori nel set di dati, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se rimuovi la trasformazione dalla sezione Ricetta del modello, i valori originali ritornano al tuo set di dati.
Modifica del tipo di dati
SageMaker Canvas offre la possibilità di modificare il tipo di dati delle colonne tra numerico, testo e datetime, visualizzando anche il tipo di funzionalità associato a quel tipo di dati. Un tipo di dati si riferisce al formato dei dati e al modo in cui vengono archiviati, mentre il tipo di caratteristica si riferisce alla caratteristica dei dati utilizzati negli algoritmi di machine learning, ad esempio binari o categorici. Ciò offre la flessibilità necessaria per modificare manualmente il tipo di dati nelle colonne in base alle funzionalità. La possibilità di scegliere il tipo di dati giusto garantisce l'integrità e la precisione dei dati prima di creare modelli. Questi tipi di dati vengono utilizzati per la creazione di modelli.
Nota
Attualmente, la modifica del tipo di funzionalità (ad esempio, da binario a categorico) non è supportata.
Le tabelle seguenti riportano tutti i tipi di dati supportati in Canvas.
Tipo di dati | Descrizione | Esempio |
---|---|---|
Numerico |
I dati numerici rappresentano valori numerici |
1, 2, 3 1.1, 1.2. 1.3 |
Testo |
I dati di testo rappresentano sequenze di caratteri, come nomi o descrizioni |
A, B, C, D mela, banana, arancia 1A! , 2A! , 3A! |
Datetime |
I dati Datetime rappresentano date e ore in formato timestamp |
01-07-2019 01:00:00, 01-07-2019 02:00:00, 01-07-2019 03:00:00 |
La tabella seguente riporta tutti i tipi di caratteristiche supportati in Canvas.
Tipo Caratteristica | Descrizione | Esempio |
---|---|---|
Binario |
Le caratteristiche binarie rappresentano due valori possibili |
0, 1, 0, 1, 0 (due valori distinti) vero, falso, vero (due valori distinti) |
Categoriale |
Le caratteristiche categoriali rappresentano categorie o gruppi distinti |
mela, banana, arancia, mela (tre valori distinti) A, B, C, D, E, A, D, C (cinque valori distinti) |
Per modificare il tipo di dati di una colonna in un set di dati, procedi come segue.
-
Nella scheda Build dell'applicazione SageMaker Canvas, vai alla vista a colonne o alla vista Griglia e seleziona il menu a discesa Tipo di dati per la colonna specifica.
-
Nel menu a discesa Tipo di dati, scegli il tipo di dati in cui eseguire la conversione. Lo screenshot seguente mostra il menu a discesa.
-
In Colonna, scegli o verifica la colonna per cui desideri modificare il tipo di dati.
-
In Nuovo tipo di dati, scegli o verifica il nuovo tipo di dati in cui desideri eseguire la conversione.
-
Se il Nuovo tipo di dati è
Datetime
oNumeric
, scegli una delle seguenti opzioni in Gestisci valori non validi:Sostituisci con un valore vuoto: i valori non validi vengono sostituiti con un valore vuoto
Elimina righe: le righe con un valore non valido vengono rimosse dal set di dati
Sostituisci con un valore personalizzato: i valori non validi vengono sostituiti con il valore personalizzato specificato.
-
Scegli Aggiungi per aggiungere la trasformazione alla ricetta del modello.
Il tipo di dati della tua colonna dovrebbe ora essere aggiornato.
Preparazione dei dati di serie temporali
Utilizza le seguenti funzionalità per preparare i dati di serie temporali per creare modelli di previsione di serie temporali.
Ricampiona i dati di serie temporali
Ricampionando i dati di serie temporali, puoi stabilire intervalli regolari per le osservazioni nel set di dati di serie temporali. Ciò è particolarmente utile quando lavori con dati di serie temporali contenenti osservazioni con spaziatura irregolare. Ad esempio, puoi utilizzare il ricampionamento per trasformare un set di dati con osservazioni registrate a intervalli di un'ora, due ore e tre ore in un intervallo regolare di un'ora tra le osservazioni. Gli algoritmi di previsione richiedono che le osservazioni vengano eseguite a intervalli regolari.
Per ricampionare i dati di serie temporali, procedi come segue.
-
Nella scheda Build dell'applicazione SageMaker Canvas, scegli Serie temporali.
-
Scegli Ricampiona.
-
Nella Colonna di timestamp, scegli la colonna a cui vuoi applicare la trasformazione. Puoi selezionare solo colonne di tipo Datetime.
-
Nella sezione Impostazione di frequenza, scegli una Frequenza e un Tasso. La frequenza è l'unità di frequenza e il tasso è l'intervallo dell'unità di frequenza da applicare alla colonna. Ad esempio, scegliendo
Calendar Day
come Valore di frequenza e1
come Tasso si imposta l'intervallo in modo che aumenti ogni 1 giorno di calendario, ad esempio2023-03-26 00:00:00
,2023-03-27 00:00:00
,2023-03-28 00:00:00
. Consulta la tabella riportata dopo questa procedura per un elenco completo dei valori di frequenza. -
Scegli Aggiungi per aggiungere la trasformazione alla ricetta del modello.
La tabella seguente elenca tutti i tipi di frequenza che puoi selezionare durante il ricampionamento dei dati di serie temporali.
Frequenza | Descrizione | Valori di esempio (supponendo che il tasso sia 1) |
---|---|---|
Giorno lavorativo |
Ricampiona le osservazioni nella colonna datetime su cinque giorni lavorativi della settimana (lunedì, martedì, mercoledì, giovedì, venerdì) |
2023-03-24 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-03 00:00:00 |
Giorno del calendario |
Ricampiona le osservazioni nella colonna datetime su tutti e sette i giorni della settimana (lunedì, martedì, mercoledì, giovedì, venerdì, sabato, domenica) |
2023-03-26 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-01 00:00:00 |
Settimana |
Ricampiona le osservazioni nella colonna datetime sul primo giorno di ogni settimana |
-13 00:00:00 2023-03-20 00:00:00 2023-03-27 00:00:00 2023-04-03 00:00:00 |
Mese |
Ricampiona le osservazioni nella colonna datetime sul primo giorno di ogni mese |
-01 00:00:00 2023-04-01 00:00:00 2023-05-01 00:00:00 2023-06-01 00:00:00 |
Trimestre |
Ricampiona le osservazioni nella colonna datetime sull’ultimo giorno di ogni trimestre |
2023-03-31 00:00:00 2023-06-30 00:00:00 2023-09-30 00:00:00 2023-12-31 00:00:00 |
Anno |
Ricampiona le osservazioni nella colonna datetime sull’ultimo giorno di ogni anno |
2022-12-31 0:00:00 2023-12-31 00:00:00 2024-12-31 00:00:00 |
Ora |
Ricampiona le osservazioni nella colonna datetime su ogni ora di ogni giorno |
2023-03-24 00:00:00 2023-03-24 01:00:00 2023-03-24 02:00:00 2023-03-24 03:00:00 |
Minuto |
Ricampiona le osservazioni nella colonna datetime su ogni minuto di ogni ora |
2023-03-24 00:00:00 2023-03-24 00:01:00 2023-03-24 00:02:00 2023-03-24 00:03:00 |
Secondo |
Ricampiona le osservazioni nella colonna datetime su ogni secondo di ogni minuto |
2023-03-24 00:00:00 2023-03-24 00:00:01 2023-03-24 00:00:02 2023-03-24 00:00:03 |
Quando applichi la trasformazione di ricampionamento, puoi utilizzare le opzioni Avanzate per specificare in che modo vengono modificati i valori risultanti delle altre colonne (diverse dalla colonna di timestamp) nel tuo set di dati. Puoi farlo specificando la metodologia di ricampionamento, che può essere un sottocampionamento o un sovracampionamento, sia per colonne numeriche che non numeriche.
Il sottocampionamento aumenta l'intervallo tra le osservazioni nel set di dati. Ad esempio, se si esegue il sottocampionamento di osservazioni effettuate ogni ora o ogni due ore, ogni osservazione nel set di dati viene eseguita ogni due ore. I valori delle altre colonne delle osservazioni orarie vengono aggregati in un unico valore, utilizzando un metodo combinato. La tabella seguente mostra un esempio di sottocampionamento dei dati di serie temporali utilizzando la media come metodo di combinazione. I dati vengono sottoposti a sottocampionamento da ogni due ore a ogni ora.
La tabella seguente mostra le letture della temperatura eseguita ogni ora nell'arco di un giorno prima del sottocampionamento.
Timestamp | Temperatura (gradi Celsius) |
---|---|
12:00 |
30 |
1:00 |
32 |
2:00 |
35 |
3:00 |
32 |
4:00 |
30 |
La tabella seguente mostra le letture della temperatura eseguita ogni due ore dopo il sottocampionamento.
Timestamp | Temperatura (gradi Celsius) |
---|---|
12:00 |
30 |
2:00 |
33,5 |
2:00 |
35 |
4:00 |
32,5 |
Per eseguire il sottocampionamento dei dati di serie temporali, procedi come segue:
-
Espandi la sezione Avanzate sotto la trasformazione Ricampiona.
-
Scegli Combinazione non numerica per specificare il metodo di combinazione per le colonne non numeriche. Consulta la tabella seguente per l'elenco completo dei metodi di combinazione.
-
Scegli Combinazione numerica per specificare il metodo di combinazione per le colonne numeriche. Consulta la tabella seguente per l'elenco completo dei metodi di combinazione.
Se non specifichi i metodi di combinazione, i valori predefiniti sono Most Common
per la combinazione non numerica e Mean
per la combinazione numerica. Nella tabella seguente sono elencati i metodi per la combinazione numerica e non numerica.
Metodologia di sottocampionamento | Metodo di combinazione | Descrizione |
---|---|---|
Combinazione non numerica |
Più comune |
Aggrega i valori nella colonna non numerica in base al valore più comunemente ricorrente |
Combinazione non numerica |
Ultimo |
Aggrega i valori nella colonna non numerica in base all’ultimo valore nella colonna |
Combinazione non numerica |
Primo |
Aggrega i valori nella colonna non numerica in base al primo valore nella colonna |
Combinazione numerica |
Media |
Aggrega i valori nella colonna numerica facendo una media di tutti i valori nella colonna |
Combinazione numerica |
Mediana |
Aggrega i valori nella colonna numerica facendo una mediana di tutti i valori nella colonna |
Combinazione numerica |
Min |
Aggrega i valori nella colonna numerica prendendo il valore minimo tra tutti i valori nella colonna |
Combinazione numerica |
Max |
Aggrega i valori nella colonna numerica prendendo il valore massimo tra tutti i valori nella colonna |
Combinazione numerica |
Somma |
Aggrega i valori nella colonna numerica sommando tutti i valori alla colonna |
Combinazione numerica |
Quantile |
Aggrega i valori nella colonna numerica prendendo il quantile di tutti i valori nella colonna |
Il sovracampionamento riduce l'intervallo tra le osservazioni nel set di dati. Ad esempio, se esegui il sovracampionamento delle osservazioni effettuate ogni due ore in osservazioni orarie, i valori delle altre colonne delle osservazioni orarie vengono interpolate da quelle effettuate ogni due ore.
Per eseguire il sovracampionamento di dati di serie temporali, procedi come segue:
-
Espandi la sezione Avanzate sotto la trasformazione Ricampiona.
-
Scegli Stima non numerica per specificare il metodo di stima per le colonne non numeriche. Consulta la tabella riportata dopo questa procedura per un elenco completo dei metodi.
-
Scegli Stima numerica per specificare il metodo di stima per le colonne numeriche. Consulta la tabella seguente per un elenco completo dei metodi.
-
(Facoltativo) Scegliete ID Column per specificare la IDs colonna che contiene le osservazioni delle serie temporali. Specifica questa opzione se il set di dati ha due serie temporali. Se hai una colonna che rappresenta una sola serie temporale, non specificare alcun valore per questo campo. Ad esempio, puoi avere un set di dati con le colonne
id
epurchase
. La colonnaid
ha i seguenti valori:[1, 2, 2, 1]
. La colonnapurchase
ha i seguenti valori[$2, $3, $4, $1]
. Pertanto, il set di dati ha due serie temporali. Una serie temporale è1: [$2, $1]
e l'altra serie temporale è2: [$3, $4]
.
Se non specifichi i metodi di stima, i valori predefiniti sono Forward Fill
per la stima non numerica e Linear
per la stima numerica. Nella tabella seguente sono elencati i metodi di stima.
Metodologia di sovracampionamento | Metodo di stima | Descrizione |
---|---|---|
Stima non numerica |
Riempimento in avanti |
Interpola i valori nella colonna non numerica prendendo i valori consecutivi dopo tutti i valori nella colonna |
Stima non numerica |
Riempimento all'indietro |
Interpola i valori nella colonna non numerica prendendo i valori consecutivi prima di tutti i valori nella colonna |
Stima non numerica |
Ancora mancante |
Interpola i valori nella colonna non numerica mostrando valori vuoti |
Stima numerica |
Lineare, tempo, indice, zero, S-lineare, più vicina, quadratica, cubica, baricentrica, polinomiale, di Krogh, polinomiale a tratti, spline, polinomiale interpolante cubica a tratti di Hermite (P-chip), Akima, spline cubica, da derivate |
Interpola i valori nella colonna numerica utilizzando l'interpolatore specificato. Per informazioni sui metodi di interpolazione, vedete pandas. DataFrame.interpolate |
Il seguente screenshot mostra le impostazioni avanzate con i campi per il sottocampionamento e il sovracampionamento già compilati.
Uso dell'estrazione datetime
Con la trasformazione dell’estrazione datetime, puoi estrarre valori da una colonna datetime in una colonna separata. Ad esempio, se hai una colonna contenente le date degli acquisti, puoi estrarre il valore del mese in una colonna separata e utilizzare la nuova colonna per creare il tuo modello. Puoi anche estrarre più valori in colonne separate con un'unica trasformazione.
La colonna datetime deve utilizzare un formato timestamp supportato. Per un elenco dei formati supportati da SageMaker Canvas, consulta. Previsioni delle serie temporali in Amazon Canvas SageMaker Se il set di dati non utilizza uno dei formati supportati, aggiorna il set di dati in modo da utilizzare un formato di timestamp supportato e reimportalo in SageMaker Amazon Canvas prima di creare il modello.
Per eseguire un'estrazione datetime, procedi come segue.
-
Nella scheda Build dell'applicazione SageMaker Canvas, nella barra delle trasformazioni, scegli Visualizza tutto.
Scegli Funzionalità di estrazione.
-
Scegli la Colonna di timestamp da cui desideri estrarre i valori.
-
In Valori, seleziona uno o più valori da estrarre dalla colonna. I valori che puoi estrarre da una colonna di timestamp sono Anno, Mese, Giorno, Ora, Settimana dell'anno, Giorno dell'anno e Trimestre.
(Facoltativo) Scegli Anteprima per visualizzare in anteprima i risultati della trasformazione.
-
Scegli Aggiungi per aggiungere la trasformazione alla ricetta del modello.
SageMaker Canvas crea una nuova colonna nel set di dati per ciascuno dei valori estratti. Ad eccezione dei valori Year, SageMaker Canvas utilizza una codifica basata su 0 per i valori estratti. Ad esempio, se estrai il valore Mese, gennaio viene estratto come 0 e febbraio viene estratto come 1.
Puoi visualizzare la trasformazione elencata nella sezione Ricetta del modello. Se rimuovi la trasformazione dalla sezione Ricetta del modello, le nuove colonne vengono rimosse dal set di dati.