Creazione di un set di dati - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di un set di dati

Nota

Se stai importando set di dati di dimensioni superiori a 5 GB in Amazon SageMaker Canvas, ti consigliamo di utilizzare la funzionalità Data Wrangler in Canvas per creare un flusso di dati. Data Wrangler supporta funzionalità avanzate di preparazione dei dati come l'unione e la concatenazione dei dati. Dopo aver creato un flusso di dati, puoi esportare il flusso di dati come set di dati Canvas e iniziare a creare un modello. Per ulteriori informazioni, consulta Esporta per creare un modello.

Le seguenti sezioni descrivono come creare un set di dati in Amazon SageMaker Canvas. Per i modelli personalizzati, è possibile creare set di dati per dati tabulari e di immagini. Per Ready-to-use i modelli, puoi utilizzare set di dati tabulari e di immagini, nonché set di dati di documenti. Scegli il tuo flusso di lavoro in base alle informazioni seguenti:

Un set di dati può essere composto da più file. Ad esempio, potresti avere più file di dati di inventario in CSV formato. È possibile caricare questi file insieme come set di dati purché lo schema (o i nomi delle colonne e i tipi di dati) dei file corrispondano.

Canvas supporta anche la gestione di più versioni del tuo set di dati. Quando crei un set di dati, la prima versione è etichettata come V1. È possibile creare una nuova versione del tuo set di dati aggiornandolo. È possibile eseguire un aggiornamento manuale oppure impostare una pianificazione automatica per l'aggiornamento del set di dati con nuovi dati. Per ulteriori informazioni, consulta Aggiornamento di un set di dati.

Quando importi i tuoi dati in Canvas, assicurati che soddisfino i requisiti di input nella tabella seguente. Le limitazioni sono specifiche del tipo di modello che stai creando.

Limite Modelli a 2 categorie, a 3 o più categorie, numerici e modelli di serie temporali Modelli di previsione di testo Modelli di previsione di immagini *Dati del documento per i modelli Ready-to-use

Tipi di file supportati

CSVe Parquet (caricamento locale, Amazon S3 o database)

JSON(database)

CSVe Parquet (caricamento locale, Amazon S3 o database)

JSON(database)

JPG, PNG

PDF, JPG, PNG, TIFF

Dimensione massima dei file

Caricamento locale: 5 GB

Fonti di dati: PBs

Caricamento locale: 5 GB

Fonti di dati: PBs

30 MB per immagine

5 MB per documento

Numero massimo di file che puoi caricare alla volta

30

30

N/D

N/D

Numero massimo di colonne

1.000

1.000

N/D

N/D

Numero massimo di voci (righe, immagini o documenti) per le Creazioni rapide

N/D

7.500 righe

5.000 immagini

N/D

Numero massimo di voci (righe, immagini o documenti) per le Creazioni standard

N/D

150.000 righe

180.000 immagini

N/D

Numero minimo di voci (righe) per le Creazioni rapide

A 2 categorie: 500 righe

A 3 o più categorie, numeriche, serie temporali: N/D

N/D

N/D

N/D

Numero minimo di voci (righe, immagini o documenti) per le Creazioni standard

250 righe

50 righe

50 immagini

N/D

Numero minimo di voci (righe o immagini) per etichetta

N/D

25 righe

25 righe

N/D

Numero minimo di etichette

A 2 categorie: 2

A 3 o più categorie: 3

Numerico, serie temporali: N/D

2

2

N/D

Dimensione minima del campione per il campionamento casuale

500

N/D

N/D

N/D

Dimensione massima del campione per il campionamento casuale

200.000

N/D

N/D

N/D

Numero massimo di etichette

A 2 categorie: 2

A 3 o più categorie, numeriche, serie temporali: N/D

1000

1000

N/D

*I dati del documento sono attualmente supportati solo per Ready-to-use i modelli che accettano i dati del documento. Non è possibile creare un modello personalizzato con i dati del documento.

Si noti inoltre che sono valide le seguenti limitazioni:

  • Quando importi dati da un bucket Amazon S3, assicurati che il nome del bucket Amazon S3 non contenga un. . Se il nome del tuo bucket contiene un., potresti riscontrare errori durante il tentativo di importare dati in Canvas.

  • Per i dati tabulari, Canvas non consente la selezione di file con estensioni diverse da .csv, .parquet, .parq e .pqt sia per il caricamento locale che per l'importazione da Amazon S3. CSVi file possono utilizzare qualsiasi delimitatore comune o personalizzato e non devono avere caratteri di nuova riga tranne quando denotano una nuova riga.

  • Per i dati tabulari che utilizzano i file Parquet, tieni presente quanto segue:

    • I file Parquet non possono includere tipi complessi come mappe ed elenchi.

    • I nomi delle colonne dei file Parquet non possono contenere spazi.

    • Se si utilizza la compressione, i file Parquet devono utilizzare tipi di compressione gzip o snappy. Per ulteriori informazioni sui tipi di compressione precedenti, consulta la documentazione di gzip e la documentazione di snappy.

  • Per quanto riguarda i dati di immagini, se hai immagini senza etichetta, devi etichettarle prima di creare il modello. Per informazioni su come assegnare etichette alle immagini all'interno dell'applicazione Canvas, consulta Modifica di un set di dati di immagini.

  • Se si impostano aggiornamenti automatici dei set di dati o configurazioni automatiche di previsione in batch, è possibile creare solo un totale di 20 configurazioni nell'applicazione Canvas. Per ulteriori informazioni, consulta Come gestire le automazioni.

Dopo aver importato un set di dati, è possibile visualizzarli nella pagina Set di dati in qualsiasi momento.

Importazione dei dati tabulari

Con i set di dati tabulari, è possibile creare modelli di previsione categoriale, numerica, di previsione di serie temporali e di previsione testuale. Consulta la tabella delle limitazioni nella precedente sezione Importa un set di dati per assicurarti che i tuoi dati soddisfino i requisiti per i dati tabulari.

Attieniti alla procedura seguente per importare un set di dati tabulare in Canvas:

  1. Apri l'applicazione Canvas. SageMaker

  2. Nel pannello di navigazione a sinistra, scegli Set di dati.

  3. Scegli Import data (Importa dati).

  4. Dal menu a discesa, scegli Tabulare.

  5. Nella finestra di dialogo popup, nel campo Nome set di dati, inserisci un nome per il set di dati e scegli Crea.

  6. Nella pagina Crea set di dati tabulare, apri il menu a discesa Data Source.

  7. Seleziona l'origine dati:

    • Per caricare file dal computer, seleziona Caricamento locale.

    • Per importare dati da un'altra origine, ad esempio un bucket Amazon S3 o un database Snowflake, cerca la tua origine dati nella barra Cerca origine dati. Quindi scegli il riquadro per l’origine dati desiderata.

      Nota

      È possibile importare dati solo dai riquadri che hanno una connessione attiva. Se desideri connetterti a un'origine dati che non è disponibile per te, contatta l'amministratore. Se sei un amministratore, consulta Connessione alle origini dati.

    Il seguente screenshot mostra il menu a discesa Origine dati.

    Screenshot che mostra il menu a discesa Origine dati e la ricerca di una origine dati nella barra di ricerca.
  8. (Facoltativo) Se ti connetti a un database Amazon Redshift o Snowflake per la prima volta, viene visualizzata una finestra di dialogo per creare una connessione. Compila la finestra di dialogo con le tue credenziali e scegli Crea connessione. Se hai già una connessione, scegli la tua.

  9. Dall’origine dati, seleziona i file da importare. Per il caricamento e l'importazione locali da Amazon S3, è possibile selezionare i file. Solo per Amazon S3, hai anche la possibilità di inserire direttamente S3URI, alias o del tuo bucket o punto ARN di accesso S3 nel campo Endpoint S3 di Input, quindi scegliere i file da importare. Per le fonti del database, puoi visualizzare le tabelle di drag-and-drop dati dal riquadro di navigazione a sinistra.

  10. (Facoltativo) Per le fonti di dati tabulari che supportano l'SQLinterrogazione (come Amazon Redshift, Amazon Athena o Snowflake), puoi scegliere Modifica SQL per creare query prima di importarle. SQL

    La schermata seguente mostra la SQL visualizzazione Modifica per un'origine dati Amazon Athena.

    Schermata che mostra una SQL query nella SQL vista Modifica per i dati di Amazon Athena.
  11. Scegli Anteprima del set di dati per visualizzare in anteprima i dati prima di importarli.

  12. Nelle impostazioni di importazione, inserisci il nome del set di dati o usa il nome del set di dati predefinito.

  13. (Facoltativo) Per i dati importati da Amazon S3, ti vengono mostrate le impostazioni avanzate e puoi compilare i seguenti campi:

    1. Attiva l'opzione Usa la prima riga come intestazione se desideri utilizzare la prima riga del set di dati come nomi delle colonne. Se hai selezionato più file, questo vale per ogni file.

    2. Se stai importando un CSV file, nel menu a discesa File encoding (CSV), seleziona la codifica del file del set di dati. UTF-8è l'impostazione predefinita.

    3. Nel menu a discesa Delimitatore, seleziona il delimitatore che separa ogni cella dei tuoi dati. Il delimitatore predefinito è. , È inoltre possibile specificare un delimitatore personalizzato.

    4. Seleziona Rilevamento multilinea se desideri che Canvas analizzi manualmente l'intero set di dati alla ricerca di celle multilinea. Per impostazione predefinita, questa opzione non è selezionata e Canvas determina se utilizzare o meno il supporto multilinea prelevando un campione dei dati. Tuttavia, Canvas potrebbe non rilevare alcuna cella multilinea nel campione. Se disponi di celle multilinea, ti consigliamo di selezionare l'opzione Rilevamento multilinea per forzare Canvas a verificare la presenza di celle multilinea nell'intero set di dati.

  14. Quando sei pronto per importare i tuoi dati, scegli Crea set di dati.

Durante l'importazione del set di dati in Canvas, è possibile vedere i tuoi set di dati elencati nella pagina Set di dati. In questa pagina, è possibile Visualizzazione dei dettagli dei set di dati.

Quando lo Stato dei tuoi set di dati si presenta come Ready, Canvas ha importato correttamente i dati ed è possibile procedere con la creazione di un modello.

Se disponi di una connessione a un'origine dati, ad esempio un database Amazon Redshift o un connettore SaaS, è possibile tornare a quella connessione. Per Amazon Redshift e Snowflake, è possibile aggiungere un'altra connessione creando un altro set di dati, tornando alla pagina Importa dati e scegliendo il riquadro Origine dati per quella connessione. Dal menu a discesa, è possibile aprire la connessione precedente o scegliere Aggiungi connessione.

Nota

Per le piattaforme SaaS, è possibile avere solo una connessione per origine dati.

Importazione dei dati di immagini

Con i set di dati di immagini, è possibile creare modelli personalizzati di previsione delle immagini con etichetta singola, che prevedono l'etichetta di un'immagine. Esamina la tabella delle limitazioni nella sezione precedente Importa un set di dati per assicurarti che il set di dati di immagini soddisfi i requisiti per gli stessi.

Nota

È possibile importare set di dati di immagini solo dal caricamento di file locali o da un bucket Amazon S3 Inoltre, per i set di dati di immagini, devi avere almeno 25 immagini per etichetta.

Utilizza la procedura seguente per importare un set di dati di immagini in Canvas:

  1. Apri l'applicazione SageMaker Canvas.

  2. Nel pannello di navigazione a sinistra, scegli Set di dati.

  3. Scegli Import data (Importa dati).

  4. Dal menu a discesa, scegli Immagine.

  5. Nella finestra di dialogo popup, nel campo Nome set di dati, inserisci un nome per il set di dati e scegli Crea.

  6. Nella pagina Importa, apri il menu a discesa Origine dati.

  7. Scegli l'origine dati. Per caricare file dal computer, seleziona Caricamento locale. Per importare file da Amazon S3, seleziona AmazonS3.

  8. Dal computer o dal bucket Amazon S3, seleziona le immagini o le cartelle di immagini che desideri caricare.

  9. Quando è tutto pronto per importare i dati, seleziona Importa dati.

Durante l'importazione del set di dati in Canvas, è possibile vedere i tuoi set di dati elencati nella pagina Set di dati. In questa pagina, è possibile Visualizzazione dei dettagli dei set di dati.

Quando lo Stato dei tuoi set di dati si presenta come Ready, Canvas ha importato correttamente i dati ed è possibile procedere con la creazione di un modello.

Durante la creazione del modello, è possibile modificare il set di dati di immagini e assegnare o riassegnare etichette, aggiungere immagini o eliminare immagini dal set di dati. Per ulteriori informazioni su come modificare il set di dati di immagini, consulta Modifica di un set di dati di immagini.

Importazione di dati dei documenti

I Ready-to-use modelli per l'analisi delle spese, l'analisi dei documenti di identità, l'analisi dei documenti e le interrogazioni sui documenti supportano i dati dei documenti. Non è possibile creare un modello personalizzato con i dati del documento.

Con i set di dati documentali, è possibile generare previsioni per l'analisi delle spese, l'analisi dei documenti di identità, l'analisi dei documenti e i modelli di interrogazione dei documenti. Ready-to-use Consulta la tabella delle limitazioni nella sezione Creazione di un set di dati per assicurarti che il set di dati di documenti soddisfi i requisiti per gli stessi.

Nota

È possibile importare set di dati di immagini solo dal caricamento di file locali o da un bucket Amazon S3.

Attieniti alla procedura seguente per importare un set di dati di documenti in Canvas:

  1. Apri l'applicazione Canvas. SageMaker

  2. Nel pannello di navigazione a sinistra, scegli Set di dati.

  3. Scegli Import data (Importa dati).

  4. Dal menu a discesa scegli Documento.

  5. Nella finestra di dialogo popup, nel campo Nome set di dati, inserisci un nome per il set di dati e seleziona Crea.

  6. Nella pagina Importa, apri il menu a discesa Origine dati.

  7. Scegli l'origine dati. Per caricare file dal computer, seleziona Caricamento locale. Per importare file da Amazon S3, seleziona AmazonS3.

  8. Dal computer o dal bucket Amazon S3, seleziona i file di documento che desideri caricare.

  9. Quando è tutto pronto per importare i dati, seleziona Importa dati.

Durante l'importazione del set di dati in Canvas, è possibile vedere i tuoi set di dati elencati nella pagina Set di dati. In questa pagina, è possibile Visualizzazione dei dettagli dei set di dati.

Quando lo Stato dei tuoi set di dati si presenta come Ready, Canvas ha importato i dati con successo.

Nella pagina Set di dati, è possibile scegliere il tuo set di dati per visualizzarne l'anteprima, che mostrerà fino ai primi 100 documenti.

Visualizzazione dei dettagli dei set di dati

Per ciascuno dei tuoi set di dati, è possibile visualizzare tutti i file in un set di dati, la cronologia delle versioni del set di dati e qualsiasi configurazione di aggiornamento automatico per il set di dati. Dalla pagina Set di dati, puoi anche avviare azioni come Aggiornamento di un set di dati o Come funzionano i modelli personalizzati.

Per visualizzare i dettagli di un set di dati, effettua le seguenti operazioni:

  1. Apri l'applicazione SageMaker Canvas.

  2. Nel pannello di navigazione a sinistra, scegli Set di dati.

  3. Dall'elenco dei set di dati, scegli il tuo set di dati.

Nella scheda Dati, è possibile vedere un'anteprima dei tuoi dati. Se scegli Dettagli dei set di dati, è possibile visualizzare tutti i file che fanno parte del tuo set di dati. Scegli un file per visualizzare solo i dati di quel file nell'anteprima. Per i set di dati di immagini, l'anteprima mostra solo le prime 100 immagini del tuo set di dati.

Nella scheda Cronologia delle versioni, è possibile visualizzare un elenco di tutte le versioni del tuo set di dati. Ogni volta che aggiorni un set di dati viene creata una nuova versione. Per scoprire di più sull'aggiornamento di un set di dati, consulta Aggiornamento di un set di dati. Il seguente screenshot mostra la scheda Cronologia delle versioni nell'applicazione Canvas.

Screenshot della scheda Cronologia delle versioni di un set di dati, con un elenco delle versioni del set di dati.

Nella scheda Aggiornamenti automatici, è possibile abilitare gli aggiornamenti automatici per il set di dati e impostare una configurazione per aggiornare il set di dati a intervalli regolari. Per scoprire di più sulla configurazione degli aggiornamenti automatici per i set di dati, consulta Configurazione degli aggiornamenti automatici per un set di dati. Il seguente screenshot mostra la scheda Aggiornamenti automatici con gli aggiornamenti automatici attivati e un elenco dei processi di aggiornamento automatico che sono stati eseguiti sul set di dati.

La scheda Aggiornamenti automatici per il set di dati che mostra gli aggiornamenti automatici attivati e un elenco di lavori di aggiornamento automatico.