Traitement de fonctionnalité avec Spark ML et Scikit-learn - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Traitement de fonctionnalité avec Spark ML et Scikit-learn

Avant de former un modèle à l'aide d'algorithmes SageMaker intégrés ou d'algorithmes personnalisés d'Amazon, vous pouvez utiliser les préprocesseurs Spark et scikit-learn pour transformer vos données et concevoir des fonctionnalités.

Traitement de fonctionnalité avec Spark ML

Vous pouvez exécuter des tâches Spark ML avec AWS Glue, un service sans serveur ETL (extraction, transformation, chargement), depuis votre SageMaker bloc-notes. Vous pouvez également vous connecter à des EMR clusters existants pour exécuter des tâches Spark ML avec Amazon EMR. Pour ce faire, vous avez besoin d'un rôle AWS Identity and Access Management (IAM) qui autorise les appels depuis votre SageMaker bloc-notes à AWS Glue.

Note

Pour savoir quelles versions de Python et de Spark sont prises AWS Glue en charge, reportez-vous aux notes de version de AWS Glue.

Après les fonctionnalités d'ingénierie, vous pouvez empaqueter et sérialiser les tâches Spark ML MLeap dans MLeap des conteneurs que vous pouvez ajouter à un pipeline d'inférence. Vous n'avez pas besoin d'utiliser des clusters Spark gérés de façon externe. Avec cette approche, vous pouvez passer aisément de quelques lignes à plusieurs téraoctets de données. Les mêmes outils de transformation fonctionnent pour l'entraînement et l'inférence. Vous n'avez donc pas besoin de dupliquer la logique de prétraitement ni d'ingénierie de fonctionnalité, ni de développer une solution unique pour conserver ces modèles. Avec les pipelines d'inférence, vous n'avez pas besoin de gérer d'infrastructure extérieure et vous pouvez effectuer des prédictions directement à partir des entrées de données.

Lorsque vous exécutez une tâche Spark ML sur AWS Glue, un pipeline Spark ML est sérialisé MLeapau format. Vous pouvez ensuite utiliser le job avec le SparkML Model Serving Container dans SageMaker un pipeline d'inférence. MLeapest un format de sérialisation et un moteur d'exécution pour les pipelines d'apprentissage automatique. Il prend en charge Spark, Scikit-learn et permet de former TensorFlow des pipelines et de les exporter vers un pipeline sérialisé appelé Bundle. MLeap Vous pouvez désérialiser les bundles dans Spark pour obtenir un score en mode batch ou dans l'MLeapenvironnement d'exécution pour alimenter les services en temps réel. API

Pour un exemple qui montre comment intégrer un processus avec Spark ML, consultez le document Entraîner un modèle ML à l'aide d'Apache Spark sur Amazon EMR et déployez-le dans un bloc-notes SageMaker d'exemple.

Traitement de fonction avec Scikit-Learn

Vous pouvez exécuter et empaqueter des tâches scikit-learn dans des conteneurs directement sur Amazon. SageMaker Pour un exemple de code Python permettant de créer un modèle de fonctionnalité Scikit-learn qui s'appuie sur l'ensemble de données sur les fleurs d'iris de Fisher et prédit les espèces d'iris sur la base de mesures morphologiques, voir IRISEntraînement et prédiction avec Sagemaker Scikit-learn.