Feature-Verarbeitung mit SparkML und Scikit-learn - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Feature-Verarbeitung mit SparkML und Scikit-learn

Bevor Sie ein Modell entweder mit den in Amazon SageMaker integrierten Algorithmen oder mit benutzerdefinierten Algorithmen trainieren, können Sie Spark- und Scikit-Learn-Präprozessoren verwenden, um Ihre Daten und Engineering-Funktionen zu transformieren.

Feature-Verarbeitung mit Spark ML

Sie können Spark-ML-Jobs mit AWS Glue, einem serverlosen Dienst ETL (Extrahieren, Transformieren, Laden), von Ihrem SageMaker Notebook aus ausführen. Sie können auch eine Verbindung zu vorhandenen EMR Clustern herstellen, um Spark-ML-Jobs mit Amazon auszuführenEMR. Dazu benötigen Sie eine AWS Identity and Access Management (IAM) -Rolle, die Ihnen die Erlaubnis erteilt, Anrufe von Ihrem SageMaker Notizbuch aus an zu tätigen AWS Glue.

Anmerkung

Informationen darüber, welche Python- und Spark-Versionen AWS Glue unterstützt werden, finden Sie in den Versionshinweisen von AWS Glue.

Nach der Entwicklung der Funktionen packen und serialisieren Sie Spark-ML-Jobs MLeap in MLeap Containern, die Sie zu einer Inferenz-Pipeline hinzufügen können. Sie müssen keine extern verwalteten Spark-Cluster verwenden. Diese Vorgehensweise erlaubt das nahtlose Skalieren von einigen Zeilen bis zu Datenmengen im Terabytebereich. Die gleichen Transformationen funktionieren für Training und Inferenz, Sie müssen daher die Vorverarbeitungs- und Funktionsbearbeitungslogik nicht duplizieren oder eine einmalige Lösung entwickeln, um die Modelle dauerhaft zu machen. Mit Inferenz-Pipelines müssen Sie keine externe Infrastruktur verwalten, und Sie können Prognosen direkt aus Dateneingaben erstellen.

Wenn Sie einen Spark-ML-Job ausführen AWS Glue, wird eine Spark-ML-Pipeline in ein Format serialisiert. MLeap Anschließend können Sie den Job mit dem SparkML Model Serving Container in einer SageMaker Inferenz-Pipeline verwenden. MLeapist ein Serialisierungsformat und eine Ausführungs-Engine für Machine-Learning-Pipelines. Es unterstützt Spark, Scikit-Learn und TensorFlow zum Trainieren von Pipelines und deren Export in eine serialisierte Pipeline, ein sogenanntes Bundle. MLeap Sie können Bundles zurück in Spark deserialisieren, um sie im Batch-Modus zu bewerten, oder in die Runtime, um Echtzeitdienste bereitzustellen. MLeap API

Ein Beispiel, das zeigt, wie Sie Prozesse mit Spark ML unterstützen können, finden Sie unter Train an ML Model using Apache Spark in Amazon EMR and Deployment in einem SageMaker Beispielnotizbuch.

Feature-Verarbeitung mit Sci-kit Learn

Sie können Scikit-Learn-Jobs direkt in Amazon ausführen und in Container packen. SageMaker Ein Beispiel für Python-Code zur Erstellung eines Scikit-Learn-Featurizer-Modells, das auf dem Irisblüten-Datensatz von Fisher trainiert und die Irisart anhand morphologischer Messungen vorhersagt, finden IRIS Sie unter Training und Vorhersage mit Sagemaker Scikit-learn.