Esegui un Job di elaborazione con scikit-learn

Puoi utilizzare Amazon SageMaker Processing per elaborare dati e valutare modelli con script scikit-learn in un'immagine Docker fornita da Amazon AI. SageMaker Di seguito viene fornito un esempio su come eseguire un processo di Amazon SageMaker Processing utilizzando scikit-learn.

Per un taccuino di esempio che mostra come eseguire script scikit-learn utilizzando un'immagine Docker fornita e gestita da SageMaker AI per preelaborare i dati e valutare i modelli, vedi scikit-learn Processing. Per utilizzare questo notebook, è necessario installare SageMaker AI Python SDK for Processing.

Questo notebook esegue un processo di elaborazione utilizzando la SKLearnProcessor classe di SageMaker Python SDK per eseguire uno script scikit-learn fornito dall'utente. Lo script preelabora i dati, addestra un modello utilizzando un processo di SageMaker formazione e quindi esegue un processo di elaborazione per valutare il modello addestrato. Il processo di elaborazione stima il modo in cui il modello dovrebbe funzionare in produzione.

Per saperne di più sull'uso di SageMaker Python SDK con i contenitori Processing, consulta SageMaker Python. SDK Per un elenco completo delle immagini Docker predefinite disponibili per i processi di elaborazione, consulta Percorsi di registro Docker e codice di esempio.

Il seguente esempio di codice mostra come il notebook esegue SKLearnProcessor lo script scikit-learn utilizzando un'immagine Docker fornita e gestita da SageMaker AI, anziché la propria immagine Docker.


from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.processing import ProcessingInput, ProcessingOutput

sklearn_processor = SKLearnProcessor(framework_version='0.20.0',
                                     role=role,
                                     instance_type='ml.m5.xlarge',
                                     instance_count=1)

sklearn_processor.run(code='preprocessing.py',
                      inputs=[ProcessingInput(
                        source='s3://path/to/my/input-data.csv',
                        destination='/opt/ml/processing/input')],
                      outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'),
                               ProcessingOutput(source='/opt/ml/processing/output/validation'),
                               ProcessingOutput(source='/opt/ml/processing/output/test')]
                     )

Per elaborare i dati in parallelo utilizzando Scikit-Learn su Amazon SageMaker Processing, puoi suddividere gli oggetti di input tramite chiave S3 impostandoli s3_data_distribution_type='ShardedByS3Key' all'interno di a in ProcessingInput modo che ogni istanza riceva circa lo stesso numero di oggetti di input.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Esecuzione di un job di elaborazione con Apache Spark

Elaborazione di dati con processori Framework