Come funziona l'elaborazione dei dati in Data Wrangler

Mentre lavori con i dati in modo interattivo in un flusso di SageMaker dati Amazon Data Wrangler, Amazon SageMaker Canvas applica le trasformazioni solo a un set di dati di esempio per consentirti di visualizzarne l'anteprima. Dopo aver terminato il flusso di dati in SageMaker Canvas, puoi elaborare tutti i dati e salvarli in una posizione adatta ai flussi di lavoro di machine learning.

Esistono diverse opzioni su come procedere dopo aver terminato la trasformazione dei dati in Data Wrangler:

Crea un modello. È possibile creare un modello Canvas, in cui si inizia direttamente a creare un modello con i dati preparati. Puoi creare un modello dopo aver elaborato l'intero set di dati o esportando solo i dati di esempio con cui hai lavorato in Data Wrangler. Canvas salva i dati elaborati (l'intero set di dati o i dati di esempio) come set di dati Canvas.

Ti consigliamo di utilizzare i dati di esempio per iterazioni rapide, ma di utilizzare tutti i dati quando desideri addestrare il modello finale. Quando si creano modelli tabulari, i set di dati di dimensioni superiori a 5 GB vengono automaticamente sottoposti a downsampling a 5 GB e, per i modelli di previsione delle serie temporali, i set di dati di dimensioni superiori a 30 GB vengono sottocampionati a 30 GB.

Per ulteriori informazioni sulla creazione di un modello, consulta. Come funzionano i modelli personalizzati
Esporta i dati. Puoi esportare i tuoi dati per utilizzarli nei flussi di lavoro di machine learning. Quando scegli di esportare i tuoi dati, hai diverse opzioni:
- È possibile salvare i dati nell'applicazione Canvas come set di dati. Per ulteriori informazioni sui tipi di file supportati per i set di dati Canvas e sui requisiti aggiuntivi per l'importazione di dati in Canvas, consulta. Creazione di un set di dati
- Puoi salvare i tuoi dati su Amazon S3. A seconda della disponibilità di memoria Canvas, i dati vengono elaborati nell'applicazione e quindi esportati in Amazon S3. Se la dimensione del set di dati supera quella che Canvas può elaborare, per impostazione predefinita, Canvas utilizza un processo EMR Serverless per scalare su più istanze di calcolo, elaborare il set di dati completo ed esportarlo in Amazon S3. Puoi anche configurare manualmente un processo di SageMaker elaborazione per avere un controllo più granulare sulle risorse di calcolo utilizzate per elaborare i dati.
Esporta un flusso di dati. Potresti voler salvare il codice per il tuo flusso di dati in modo da poter modificare o eseguire le trasformazioni all'esterno di Canvas. Canvas ti offre la possibilità di salvare le trasformazioni del flusso di dati come codice Python in un notebook Jupyter, che puoi quindi esportare in Amazon S3 per utilizzarlo altrove nei tuoi flussi di lavoro di machine learning.

Quando esporti i dati da un flusso di dati e li salvi come set di dati Canvas o su Amazon S3, Canvas crea un nuovo nodo di destinazione nel flusso di dati, che è un nodo finale che mostra dove sono archiviati i dati elaborati. Puoi aggiungere nodi di destinazione aggiuntivi al flusso se desideri eseguire più operazioni di esportazione. Ad esempio, puoi esportare i dati da diversi punti del flusso di dati per applicare solo alcune trasformazioni oppure puoi esportare i dati trasformati in diverse posizioni Amazon S3. Per ulteriori informazioni su come aggiungere o modificare un nodo di destinazione, consulta Aggiungi nodi di destinazione e. Modifica un nodo di destinazione

Per ulteriori informazioni sulla configurazione di una pianificazione con Amazon EventBridge per elaborare ed esportare automaticamente i dati in base a una pianificazione, consultaCrea una pianificazione per elaborare automaticamente i nuovi dati.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Chatta per la preparazione dei dati

Esporta per creare un modello