Carichi di lavoro di trasformazione dei dati con Processing SageMaker - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Carichi di lavoro di trasformazione dei dati con Processing SageMaker

SageMaker L'elaborazione si riferisce alla capacità SageMaker di eseguire attività di pre e post elaborazione dei dati, progettazione delle funzionalità e valutazione dei modelli su un' SageMakerinfrastruttura completamente gestita. Queste attività vengono eseguite come processi di elaborazione. Di seguito vengono fornite informazioni e risorse per ulteriori informazioni sull' SageMaker elaborazione.

Utilizzando SageMaker ProcessingAPI, i data scientist possono eseguire script e notebook per elaborare, trasformare e analizzare i set di dati per prepararli all'apprendimento automatico. In combinazione con le altre attività critiche di apprendimento automatico fornite da SageMaker, come la formazione e l'hosting, Processing offre i vantaggi di un ambiente di apprendimento automatico completamente gestito, incluso tutto il supporto integrato per la sicurezza e la conformità. SageMaker Hai la flessibilità di utilizzare i contenitori di elaborazione dati integrati o di utilizzare contenitori personalizzati per logiche di elaborazione personalizzate e quindi inviare lavori da eseguire su un'infrastruttura SageMaker gestita.

Nota

È possibile creare un processo di elaborazione a livello di codice richiamando l'CreateProcessingJobAPIazione in qualsiasi linguaggio supportato da SageMaker o utilizzando il. AWS CLI Per informazioni su come questa API azione si traduce in una funzione nella lingua desiderata, consultate la sezione Vedere anche di CreateProcessingJob e scegliete un. SDK Ad esempio, per gli utenti di Python, consulta la sezione Amazon SageMaker Processing di SageMaker Python. SDK In alternativa, consulta la sintassi completa della richiesta di create_processing_job in. AWS SDK for Python (Boto3)

Il diagramma seguente mostra come Amazon SageMaker avvia un processo di elaborazione. Amazon SageMaker prende lo script, copia i dati da Amazon Simple Storage Service (Amazon S3) e quindi crea un contenitore di elaborazione. L'infrastruttura sottostante per un processo di elaborazione è completamente gestita da Amazon SageMaker. Dopo aver inviato un processo di elaborazione, SageMaker avvia le istanze di calcolo, elabora e analizza i dati di input e rilascia le risorse una volta completato. L'output del processo di elaborazione viene archiviato nel bucket Amazon S3 che hai specificato.

Nota

I dati di input devono essere archiviati in un bucket S3 Amazon. In alternativa, puoi utilizzare Amazon Athena o Amazon Redshift come origini input.

Esecuzione di un processo di elaborazione.
Suggerimento

Per conoscere le migliori pratiche per il calcolo dei processi di addestramento distribuito ed elaborazione del machine learning (ML) in generale, consulta Elaborazione distribuita con SageMaker best practice.

Usa Amazon SageMaker Processing Sample Notebook

Sono disponibili due notebook Jupyter di esempio che mostrano come eseguire la preelaborazione dei dati, la valutazione del modello o entrambe le attività.

Per un taccuino di esempio che mostra come eseguire script scikit-learn per eseguire la preelaborazione dei dati e l'addestramento e la valutazione dei modelli con SageMaker Python SDK for Processing, vedi scikit-learn Processing. Questo notebook mostra anche come utilizzare il container personalizzato per eseguire carichi di lavoro di elaborazione con le librerie Python e altre dipendenze specifiche.

Per un notebook di esempio che mostra come utilizzare Amazon SageMaker Processing per eseguire la preelaborazione distribuita dei dati con Spark, consulta Distributed Processing (Spark). Questo taccuino mostra anche come addestrare un modello di regressione utilizzando XGBoost un set di dati preelaborato.

Per istruzioni su come creare e accedere alle istanze di notebook Jupyter che è possibile utilizzare per eseguire questi esempi, vedere. SageMaker Istanze Amazon SageMaker Notebook Dopo aver creato un'istanza di notebook e averla aperta, scegli la scheda SageMaker Esempi per visualizzare un elenco di tutti gli esempi. SageMaker Per aprire un notebook, seleziona la relativa scheda Utilizza e scegli Crea copia.

Monitora i SageMaker processi di elaborazione di Amazon con CloudWatch log e metriche

Amazon SageMaker Processing fornisce CloudWatch log e parametri Amazon per monitorare i processi di elaborazione. CloudWatch fornisceCPU,GPU, parametri di GPU memoria, memoria e disco e registrazione degli eventi. Per ulteriori informazioni, consulta Metriche per il monitoraggio di Amazon SageMaker con Amazon CloudWatch e Gruppi di log e stream SageMaker inviati da Amazon ad Amazon CloudWatch Logs.