Crea un flusso di dati - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Crea un flusso di dati

Utilizza un flusso Data Wrangler in SageMaker Canvas, o flusso di dati, per creare e modificare una pipeline di preparazione dei dati. Ti consigliamo di utilizzare Data Wrangler per set di dati di dimensioni superiori a 5 GB.

Per iniziare, utilizza la seguente procedura per importare i dati in un flusso di dati.

  1. Apri SageMaker Canvas.

  2. Nella barra di navigazione a sinistra, scegli Data Wrangler.

  3. Scegli Importa e prepara.

  4. Dal menu a discesa, scegli Tabulare o Immagine.

  5. Per Seleziona un'origine dati, scegli la tua fonte di dati e seleziona i dati che desideri importare. Hai la possibilità di selezionare fino a 30 file o una cartella. Se hai già un set di dati importato in Canvas, scegli il set di dati Canvas come fonte. Altrimenti, connettiti a una fonte di dati come Amazon S3 o Snowflake e sfoglia i tuoi dati. Per informazioni sulla connessione a un'origine dati o sull'importazione di dati, consulta le seguenti pagine:

  6. Dopo aver selezionato i dati da importare, scegli Avanti.

  7. (Facoltativo) Per la sezione Impostazioni di importazione durante l'importazione di un set di dati tabulare, espandi il menu a discesa Avanzate. È possibile specificare le seguenti impostazioni avanzate per le importazioni del flusso di dati:

    • Metodo di campionamento: seleziona il metodo di campionamento e la dimensione del campione che desideri utilizzare. Per ulteriori informazioni su come modificare il campione, consulta la sezione. Modifica la configurazione di campionamento del flusso di dati

    • Codifica file (CSV): seleziona la codifica del file del set di dati. UTF-8è l'impostazione predefinita.

    • Ignora le prime righe: inserisci il numero di righe che desideri saltare l'importazione se hai righe ridondanti all'inizio del set di dati.

    • Delimitatore: seleziona il delimitatore che separa ogni elemento dei dati. Puoi anche specificare un delimitatore personalizzato.

    • Rilevamento multilinea: seleziona questa opzione se desideri che Canvas analizzi manualmente l'intero set di dati alla ricerca di celle multilinea. Canvas determina se utilizzare o meno il supporto multilinea prelevando un campione dei dati, ma Canvas potrebbe non rilevare alcuna cella multilinea nel campione. In questo caso, ti consigliamo di selezionare l'opzione di rilevamento multilinea per forzare Canvas a verificare la presenza di celle multilinea nell'intero set di dati.

  8. Seleziona Importa.

Ora dovresti avere un nuovo flusso di dati e puoi iniziare ad aggiungere fasi di trasformazione e analisi.