Esporta dati - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esporta dati

Esporta i dati per applicare le trasformazioni dal flusso di dati all'intero set di dati importato. Puoi esportare qualsiasi nodo del flusso di dati nelle seguenti posizioni:

  • SageMaker Set di dati Canvas

  • Amazon S3

Se desideri addestrare modelli in Canvas, puoi esportare il tuo set di dati completo e trasformato come set di dati Canvas. Se desideri utilizzare i dati trasformati in flussi di lavoro di machine learning esterni a SageMaker Canvas, puoi esportare il tuo set di dati in Amazon S3.

Esporta in un set di dati Canvas

Utilizza la seguente procedura per esportare un set di dati SageMaker Canvas da un nodo del flusso di dati.

Per esportare un nodo nel flusso come set di dati SageMaker Canvas
  1. Passa al tuo flusso di dati.

  2. Scegli l'icona con i puntini di sospensione accanto al nodo che stai esportando.

  3. Nel menu contestuale, passa il mouse su Esporta, quindi seleziona Esporta dati nel set di dati Canvas.

  4. Nel pannello laterale Esporta in Canvas, inserisci il nome del set di dati per il nuovo set di dati.

  5. Lascia selezionata l'opzione Elabora l'intero set di dati se desideri che SageMaker Canvas elabori e salvi l'intero set di dati. Disattiva questa opzione per applicare le trasformazioni solo ai dati di esempio con cui stai lavorando nel flusso di dati.

  6. Scegli Export (Esporta).

Ora dovresti essere in grado di andare alla pagina Datasets dell'applicazione Canvas e vedere il tuo nuovo set di dati.

Esportazione in Amazon S3

Quando esporti i tuoi dati in Amazon S3, puoi scalare per trasformare ed elaborare dati di qualsiasi dimensione. Canvas elabora automaticamente i dati localmente se la memoria dell'applicazione è in grado di gestire le dimensioni del set di dati. Se la dimensione del set di dati supera la capacità di memoria locale di 5 GB, Canvas avvia un processo remoto per conto dell'utente per fornire risorse di calcolo aggiuntive ed elaborare i dati più rapidamente. Per impostazione predefinita, Canvas utilizza Amazon EMR Serverless per eseguire questi lavori remoti. Tuttavia, puoi configurare manualmente Canvas per utilizzare EMR Serverless o un SageMaker processo di elaborazione con le tue impostazioni.

Nota

Quando si esegue un processo EMR Serverless, per impostazione predefinita il lavoro eredita il IAM ruolo, le impostazioni KMS chiave e i tag dell'applicazione Canvas.

Di seguito sono riepilogate le opzioni per i lavori remoti in Canvas:

I seguenti tipi di file sono supportati durante l'esportazione in Amazon S3:

  • CSV

  • Parquet

Per iniziare, esamina i prerequisiti seguenti.

Prerequisiti per i lavori serverless EMR

Per creare un lavoro remoto che utilizzi risorse EMR Serverless, è necessario disporre delle autorizzazioni necessarie. Puoi concedere le autorizzazioni tramite il SageMaker dominio Amazon o le impostazioni del profilo utente oppure puoi configurare manualmente il AWS IAM ruolo dell'utente. Per istruzioni su come concedere agli utenti le autorizzazioni per eseguire l'elaborazione di grandi quantità di dati, consulta. Concedi agli utenti le autorizzazioni per utilizzare dati di grandi dimensioni in tutto il ciclo di vita del machine learning

Se non desideri configurare queste politiche ma devi comunque elaborare set di dati di grandi dimensioni tramite Data Wrangler, in alternativa puoi utilizzare un processo di elaborazione. SageMaker

Utilizza le seguenti procedure per esportare i dati in Amazon S3. Per configurare un lavoro remoto, segui i passaggi avanzati opzionali.

Per esportare un nodo del flusso in Amazon S3
  1. Accedi al tuo flusso di dati.

  2. Scegli l'icona con i puntini di sospensione accanto al nodo che stai esportando.

  3. Nel menu contestuale, passa il mouse su Esporta, quindi seleziona Esporta dati su Amazon S3.

  4. Nel pannello laterale Esporta in Amazon S3, puoi modificare il nome del set di dati per il nuovo set di dati.

  5. Per la posizione S3, inserisci la posizione Amazon S3 in cui desideri esportare il set di dati. Puoi inserire l'alias S3 o la URI posizione S3 o il punto ARN di accesso S3. Per ulteriori punti di accesso alle informazioni, consulta Gestire l'accesso ai dati con i punti di accesso Amazon S3 nella Amazon S3 User Guide.

  6. (Facoltativo) Per le impostazioni avanzate, specifica i valori per i seguenti campi:

    1. Tipo di file: il formato di file dei dati esportati.

    2. Delimitatore: il delimitatore utilizzato per separare i valori nel file.

    3. Compressione: metodo di compressione utilizzato per ridurre le dimensioni del file.

    4. Numero di partizioni: il numero di file del set di dati che Canvas scrive come output del lavoro.

    5. Scegli colonne: puoi scegliere un sottoinsieme di colonne dai dati da includere nelle partizioni.

  7. Lascia selezionata l'opzione Elabora l'intero set di dati se desideri che Canvas applichi le trasformazioni del flusso di dati all'intero set di dati ed esporti il risultato. Se deselezioni questa opzione, Canvas applica le trasformazioni solo al campione del set di dati utilizzato nel flusso di dati interattivo di Data Wrangler.

    Nota

    Se esporti solo un campione di dati, Canvas elabora i dati nell'applicazione e non crea un lavoro remoto per te.

  8. Lasciate selezionata l'opzione di configurazione automatica del lavoro se desiderate che Canvas determini automaticamente se eseguire il lavoro utilizzando la memoria dell'applicazione Canvas o un lavoro EMR Serverless. Se deselezionate questa opzione e configurate manualmente il lavoro, potete scegliere di utilizzare un processo EMR Serverless o un SageMaker processo di elaborazione. Per istruzioni su come configurare un processo EMR Serverless o di SageMaker Processing, consulta la sezione successiva a questa procedura prima di esportare i dati.

  9. Scegli Export (Esporta).

Le seguenti procedure mostrano come configurare manualmente le impostazioni del processo remoto per EMR Serverless o SageMaker Processing durante l'esportazione del set di dati completo in Amazon S3.

EMR Serverless

Per configurare un processo EMR Serverless durante l'esportazione in Amazon S3, procedi come segue:

  1. Nel pannello laterale Esporta in Amazon S3, disattiva l'opzione di configurazione automatica del lavoro.

  2. Seleziona EMRServerless.

  3. Per Job name, inserisci un nome per il tuo job EMR Serverless. Il nome può contenere lettere, numeri, trattini e caratteri di sottolineatura.

  4. Per IAMruolo, inserisci il ruolo di esecuzione dell'utente. IAM Questo ruolo deve disporre delle autorizzazioni necessarie per eseguire applicazioni EMR serverless. Per ulteriori informazioni, consulta Concedi agli utenti le autorizzazioni per utilizzare dati di grandi dimensioni in tutto il ciclo di vita del machine learning.

  5. (Facoltativo) Per KMSla chiave, specificare l'ID ARN della chiave o un AWS KMS key per crittografare i registri dei lavori. Se non inserisci una chiave, Canvas utilizza una chiave predefinita per EMR Serverless.

  6. (Facoltativo) Per la configurazione del monitoraggio, inserisci il nome di un gruppo di log di Amazon CloudWatch Logs in cui desideri pubblicare i log.

  7. (Facoltativo) Per i tag, aggiungi tag di metadati al job EMR Serverless composto da coppie chiave-valore. Questi tag possono essere utilizzati per classificare e cercare offerte di lavoro.

  8. Scegli Export (Esporta) per avviare il processo.

SageMaker Processing

Per configurare un SageMaker processo di elaborazione durante l'esportazione in Amazon S3, procedi come segue:

  1. Nel pannello laterale Esporta in Amazon S3, disattiva l'opzione di configurazione automatica del lavoro.

  2. Seleziona SageMaker Elaborazione.

  3. In Job name, inserisci un nome per il tuo SageMaker processo di elaborazione.

  4. Per Tipo di istanza, seleziona il tipo di istanza di calcolo per eseguire il processo di elaborazione.

  5. Per Numero di istanze, specifica il numero di istanze di calcolo da avviare.

  6. Per IAMruolo, inserisci il ruolo di IAM esecuzione dell'utente. Questo ruolo deve disporre delle autorizzazioni necessarie per SageMaker creare ed eseguire processi di elaborazione per tuo conto. Queste autorizzazioni vengono concesse se al ruolo è associata la AmazonSageMakerFullAccessIAMpolitica.

  7. Per Dimensione del volume, inserisci la dimensione di archiviazione in GB per il volume di archiviazione ML collegato a ciascuna istanza di elaborazione. Scegli la dimensione in base alla dimensione prevista dei dati di input e output.

  8. (Facoltativo) Per Volume KMS key, specifica una KMS chiave per crittografare il volume di archiviazione. Se non specifichi una chiave, viene utilizzata la chiave di EBS crittografia Amazon predefinita.

  9. (Facoltativo) Come KMSchiave, specifica una KMS chiave per crittografare le sorgenti dati di input e output di Amazon S3 utilizzate dal processo di elaborazione.

  10. (Facoltativo) Per la configurazione della memoria Spark, procedi come segue:

    1. Inserisci la memoria Driver in MB per il nodo driver Spark che gestisce il coordinamento e la pianificazione dei lavori.

    2. Inserisci la memoria Executor in MB per i nodi Spark Executor che eseguono le singole attività del job.

  11. (Facoltativo) Per la configurazione di rete, effettuate le seguenti operazioni:

    1. Per la configurazione IDs delle sottoreti, immettete le VPC sottoreti per le istanze di elaborazione in cui avviare. Per impostazione predefinita, il processo utilizza le impostazioni predefinite. VPC

    2. Per la configurazione del gruppo di sicurezza, inserisci i gruppi IDs di sicurezza per controllare le regole di connettività in entrata e in uscita.

    3. Attiva l'opzione Abilita la crittografia del traffico tra container per crittografare le comunicazioni di rete tra i contenitori di elaborazione durante il lavoro.

  12. (Facoltativo) Per le pianificazioni di affiliazione, puoi scegliere di creare una EventBridge pianificazione Amazon per far sì che il processo di elaborazione venga eseguito a intervalli ricorrenti. Scegli Crea nuova pianificazione e compila la finestra di dialogo. Per ulteriori informazioni sulla compilazione di questa sezione e sull'esecuzione dei processi di elaborazione in base a una pianificazione, consultaCrea una pianificazione per elaborare automaticamente i nuovi dati.

  13. (Facoltativo) Aggiungi tag come coppie chiave-valore in modo da poter classificare e cercare i processi di elaborazione.

  14. Scegliete Esporta per avviare il processo di elaborazione.

Dopo aver esportato i dati, dovresti trovare il set di dati completamente elaborato nella posizione Amazon S3 specificata.