Traitement de fonctionnalité avec Spark ML Traitement de fonction avec Scikit-Learn

Traitement de fonctionnalité avec Spark ML et Scikit-learn

Avant de former un modèle à l'aide d'algorithmes intégrés d'Amazon SageMaker AI ou d'algorithmes personnalisés, vous pouvez utiliser les préprocesseurs Spark et scikit-learn pour transformer vos données et concevoir des fonctionnalités.

Traitement de fonctionnalité avec Spark ML

Vous pouvez exécuter des tâches Spark ML avec AWS Glue, un service ETL (extraction, transformation, chargement) sans serveur, depuis votre bloc-notes SageMaker AI. Vous pouvez également vous connecter à des clusters EMR existants pour exécuter des tâches Spark ML avec Amazon EMR. Pour ce faire, vous avez besoin d'un rôle AWS Identity and Access Management (IAM) autorisant à passer des appels depuis votre bloc-notes SageMaker AI à AWS Glue.

Note

Pour savoir quelles versions de Python et de Spark sont prises AWS Glue en charge, reportez-vous aux notes de version de AWS Glue.

Après les fonctionnalités d'ingénierie, vous pouvez empaqueter et sérialiser les tâches Spark ML MLeap dans MLeap des conteneurs que vous pouvez ajouter à un pipeline d'inférence. Vous n'avez pas besoin d'utiliser des clusters Spark gérés de façon externe. Avec cette approche, vous pouvez passer aisément de quelques lignes à plusieurs téraoctets de données. Les mêmes outils de transformation fonctionnent pour l'entraînement et l'inférence. Vous n'avez donc pas besoin de dupliquer la logique de prétraitement ni d'ingénierie de fonctionnalité, ni de développer une solution unique pour conserver ces modèles. Avec les pipelines d'inférence, vous n'avez pas besoin de gérer d'infrastructure extérieure et vous pouvez effectuer des prédictions directement à partir des entrées de données.

Lorsque vous exécutez une tâche Spark ML sur AWS Glue, un pipeline Spark ML est sérialisé MLeapau format. Vous pouvez ensuite utiliser le job avec le SparkML Model Serving Container dans SageMaker un pipeline d'inférence AI. MLeapest un format de sérialisation et un moteur d'exécution pour les pipelines d'apprentissage automatique. Il prend en charge Spark, Scikit-learn et permet de former TensorFlow des pipelines et de les exporter vers un pipeline sérialisé appelé Bundle. MLeap Vous pouvez désérialiser les bundles dans Spark pour une évaluation par lots ou dans le MLeap runtime pour alimenter les services d'API en temps réel.

Pour un exemple illustrant comment intégrer un processus avec Spark ML, consultez le carnet d'exemples de formation d'un modèle ML à l'aide d'Apache Spark dans Amazon EMR et déployez-le dans un bloc-notes d'exemples d' SageMaker IA.

Traitement de fonction avec Scikit-Learn

Vous pouvez exécuter et empaqueter des tâches scikit-learn dans des conteneurs directement dans Amazon AI. SageMaker Pour obtenir un exemple de code Python permettant de générer un modèle de description scikit-learn qui s'entraîne sur l'ensemble de données d'iris de Fisher et prédit les espèces d'iris selon les mesures morphologiques, veuillez consulter la page relative à l'entraînement et à la prédiction d'iris avec Sagemaker Scikit-learn.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Pipelines d'inférence

Création d'un modèle de pipeline