Führen Sie einen Verarbeitungsjob mit scikit-learn aus

Sie können Amazon SageMaker Processing verwenden, um Daten zu verarbeiten und Modelle mit Scikit-Learn-Skripten in einem von Amazon bereitgestellten Docker-Image auszuwerten. SageMaker Im Folgenden finden Sie ein Beispiel für die Ausführung eines Amazon SageMaker Processing-Jobs mit scikit-learn.

Ein Beispiel-Notizbuch, das zeigt, wie Scikit-Learn-Skripte mithilfe eines Docker-Images ausgeführt werden, das von bereitgestellt und verwaltet wird, SageMaker um Daten vorzuverarbeiten und Modelle auszuwerten, finden Sie unter scikit-learn Processing. Um dieses Notizbuch verwenden zu können, müssen Sie SageMaker Python SDK for Processing installieren.

Dieses Notizbuch führt einen Verarbeitungsjob mit einer SKLearnProcessor Klasse aus SageMaker Python aus, SDK um ein von Ihnen bereitgestelltes Scikit-Learn-Skript auszuführen. Das Skript verarbeitet Daten vor, trainiert ein Modell mithilfe eines SageMaker Trainingsjobs und führt dann einen Verarbeitungsjob aus, um das trainierte Modell auszuwerten. Mit dem Verarbeitungsauftrag wird die Leistung des Modells in der Produktion geschätzt.

Weitere Informationen zur Verwendung von SageMaker Python SDK mit Verarbeitungscontainern finden Sie unter SageMaker Python SDK. Eine vollständige Liste der vorgefertigten Docker-Images, die für die Verarbeitung von Aufträgen verfügbar sind, finden Sie unter Docker-Registry-Pfade und Beispielcode.

Das folgende Codebeispiel zeigt, wie das Notebook Ihr eigenes Scikit-Learn-Skript unter Verwendung eines Docker-Images ausführt SageMaker, das von anstelle Ihres eigenen Docker-Images bereitgestellt und verwaltet wird. SKLearnProcessor


from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.processing import ProcessingInput, ProcessingOutput

sklearn_processor = SKLearnProcessor(framework_version='0.20.0',
                                     role=role,
                                     instance_type='ml.m5.xlarge',
                                     instance_count=1)

sklearn_processor.run(code='preprocessing.py',
                      inputs=[ProcessingInput(
                        source='s3://path/to/my/input-data.csv',
                        destination='/opt/ml/processing/input')],
                      outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'),
                               ProcessingOutput(source='/opt/ml/processing/output/validation'),
                               ProcessingOutput(source='/opt/ml/processing/output/test')]
                     )

Um Daten mit Scikit-Learn auf Amazon SageMaker Processing parallel zu verarbeiten, können Sie Eingabeobjekte per S3-Schlüssel teilen, indem Sie s3_data_distribution_type='ShardedByS3Key' innerhalb von a festlegen, ProcessingInput dass jede Instanz ungefähr die gleiche Anzahl von Eingabeobjekten empfängt.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Einen Verarbeitungsjob mit Apache Spark ausführen

Datenverarbeitung mit Framework-Prozessoren