Führen Sie einen Verarbeitungsjob mit scikit-learn aus - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Führen Sie einen Verarbeitungsjob mit scikit-learn aus

Sie können Amazon SageMaker Processing verwenden, um Daten zu verarbeiten und Modelle mit Scikit-Learn-Skripten in einem von Amazon bereitgestellten Docker-Image auszuwerten. SageMaker Im Folgenden finden Sie ein Beispiel für die Ausführung eines Amazon SageMaker Processing-Jobs mit scikit-learn.

Ein Beispiel-Notizbuch, das zeigt, wie Scikit-Learn-Skripte mithilfe eines Docker-Images ausgeführt werden, das von bereitgestellt und verwaltet wird, SageMaker um Daten vorzuverarbeiten und Modelle auszuwerten, finden Sie unter scikit-learn Processing. Um dieses Notizbuch verwenden zu können, müssen Sie SageMaker Python SDK for Processing installieren.

Dieses Notizbuch führt einen Verarbeitungsjob mit einer SKLearnProcessor Klasse aus SageMaker Python aus, SDK um ein von Ihnen bereitgestelltes Scikit-Learn-Skript auszuführen. Das Skript verarbeitet Daten vor, trainiert ein Modell mithilfe eines SageMaker Trainingsjobs und führt dann einen Verarbeitungsjob aus, um das trainierte Modell auszuwerten. Mit dem Verarbeitungsauftrag wird die Leistung des Modells in der Produktion geschätzt.

Weitere Informationen zur Verwendung von SageMaker Python SDK mit Verarbeitungscontainern finden Sie unter SageMaker Python SDK. Eine vollständige Liste der vorgefertigten Docker-Images, die für die Verarbeitung von Aufträgen verfügbar sind, finden Sie unter Docker-Registry-Pfade und Beispielcode.

Das folgende Codebeispiel zeigt, wie das Notebook Ihr eigenes Scikit-Learn-Skript unter Verwendung eines Docker-Images ausführt SageMaker, das von anstelle Ihres eigenen Docker-Images bereitgestellt und verwaltet wird. SKLearnProcessor

from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )

Um Daten mit Scikit-Learn auf Amazon SageMaker Processing parallel zu verarbeiten, können Sie Eingabeobjekte per S3-Schlüssel teilen, indem Sie s3_data_distribution_type='ShardedByS3Key' innerhalb von a festlegen, ProcessingInput dass jede Instanz ungefähr die gleiche Anzahl von Eingabeobjekten empfängt.