Automatisez la préparation des données dans SageMaker Canvas

Mode de mise au point

Automatisez la préparation des données dans SageMaker Canvas - Amazon SageMaker AI

Automatisez la préparation des données grâce aux pipelines Automatisez la préparation des données à l'aide d'un point d'inférence Automatisez la préparation des données à l'aide du code Python

Après avoir transformé vos données en flux de données, vous pouvez exporter les transformations vers vos flux de travail d'apprentissage automatique. Lorsque vous exportez vos transformations, SageMaker Canvas crée un bloc-notes Jupyter. Vous devez exécuter le bloc-notes dans Amazon SageMaker Studio Classic. Pour plus d'informations sur la prise en main de Studio Classic, contactez votre administrateur.

Automatisez la préparation des données grâce aux pipelines

Lorsque vous souhaitez créer et déployer des flux de travail d'apprentissage automatique (ML) à grande échelle, vous pouvez utiliser des pipelines pour créer des flux de travail qui gèrent et déploient des tâches d' SageMaker IA. Avec Pipelines, vous pouvez créer des flux de travail qui gèrent la préparation de vos données d' SageMaker IA, la formation des modèles et les tâches de déploiement de modèles. Vous pouvez utiliser les algorithmes propriétaires proposés par l' SageMaker IA en utilisant Pipelines. Pour plus d'informations sur les pipelines, consultez la section SageMaker Pipelines.

Lorsque vous exportez une ou plusieurs étapes de votre flux de données vers Pipelines, Data Wrangler crée un bloc-notes Jupyter que vous pouvez utiliser pour définir, instancier, exécuter et gérer un pipeline.

Utiliser un bloc-notes Jupyter pour créer un pipeline

Utilisez la procédure suivante pour créer un bloc-notes Jupyter afin d'exporter votre flux Data Wrangler vers Pipelines.

Utilisez la procédure suivante pour générer un bloc-notes Jupyter et l'exécuter pour exporter votre flux Data Wrangler vers Pipelines.

Cliquez sur l'icône + en regard du nœud que vous souhaitez exporter.
Choisissez Exporter le flux de données.
Choisissez Pipelines (via Jupyter Notebook).
Téléchargez le bloc-notes Jupyter ou copiez-le sur un emplacement Amazon S3. Nous vous recommandons de le copier vers un emplacement Amazon S3 auquel vous pouvez accéder dans Studio Classic. Contactez votre administrateur si vous avez besoin de conseils pour trouver un emplacement approprié.
Exécutez le bloc-notes Jupyter.

Vous pouvez utiliser le bloc-notes Jupyter produit par Data Wrangler pour définir un pipeline. Le pipeline comprend des étapes de traitement des données définies par le flux Data Wrangler.

Vous pouvez ajouter des étapes supplémentaires à votre pipeline en ajoutant des étapes à la liste steps dans le code suivant, dans le bloc-notes :


pipeline = Pipeline(
    name=pipeline_name,
    parameters=[instance_type, instance_count],
    steps=[step_process], #Add more steps to this list to run in your Pipeline
)

Pour plus d'informations sur la définition de pipelines, consultez la section Définir un pipeline d' SageMaker IA.

Automatisez la préparation des données à l'aide d'un point d'inférence

Utilisez votre flux Data Wrangler pour traiter les données au moment de l'inférence en créant un pipeline d'inférence série SageMaker AI à partir de votre flux Data Wrangler. Un pipeline d'inférence est une série d'étapes qui permettent à un modèle entraîné de faire des prédictions sur de nouvelles données. Un pipeline d'inférence en série intégré à Data Wrangler transforme les données brutes et les fournit au modèle de machine learning à des fins de prédiction. Vous créez, exécutez et gérez le pipeline d'inférence à partir d'un bloc-notes Jupyter dans Studio Classic. Pour plus d'informations sur l'accès au bloc-notes, consultez Utiliser un bloc-notes Jupyter pour créer un point de terminaison d'inférence.

Dans le bloc-notes, vous pouvez soit entraîner un modèle de machine learning, soit en spécifier un que vous avez déjà entraîné. Vous pouvez soit utiliser Amazon SageMaker Autopilot, soit entraîner le modèle XGBoost à l'aide des données que vous avez transformées dans votre flux Data Wrangler.

Le pipeline permet d'effectuer des inférences par lots ou en temps réel. Vous pouvez également ajouter le flux Data Wrangler au SageMaker Model Registry. Pour plus d'informations sur les modèles d'hébergement, veuillez consulter Points de terminaison multi-modèles.

Important

Vous ne pouvez pas exporter votre flux Data Wrangler vers un point de terminaison d'inférence s'il comporte les transformations suivantes :

Joindre
Concaténer
Regrouper par

Si vous devez utiliser les transformations précédentes pour préparer vos données, suivez la procédure suivante.

Pour préparer vos données à l'inférence à l'aide de transformations non prises en charge

Créez un flux Data Wrangler.
Appliquez les transformations précédentes qui ne sont pas prises en charge.
Exportez les données vers un compartiment Amazon S3.
Créez un flux Data Wrangler distinct.
Importez les données que vous avez exportées à partir du flux précédent.
Appliquez les transformations restantes.
Créez un pipeline d'inférence en série à l'aide du bloc-notes Jupyter que nous fournissons.

Pour en savoir plus sur l'export de vos données vers un compartiment Amazon S3, consultez Exporter les données. Pour en savoir plus sur l'ouverture du bloc-notes Jupyter utilisé pour créer le pipeline d'inférence en série, consultez Utiliser un bloc-notes Jupyter pour créer un point de terminaison d'inférence.

Data Wrangler ignore les transformations qui suppriment les données au moment de l'inférence. Par exemple, Data Wrangler ignore la transformation Handle Missing Values (Gestion des valeurs manquantes) si vous utilisez la configuration Supprimer les valeurs manquantes.

Si vous avez réajusté les transformations à l'ensemble de votre jeu de données, elles sont répercutées sur votre pipeline d'inférence. Par exemple, si vous avez utilisé la valeur médiane pour imputer les valeurs manquantes, la valeur médiane issue du réajustement de la transformation est appliquée à vos demandes d'inférence. Vous pouvez modifier les transformations de votre flux Data Wrangler lorsque vous utilisez le bloc-notes Jupyter ou lorsque vous exportez vos données vers un pipeline d'inférence.

Le pipeline d'inférence en série prend en charge les types de données suivants pour les chaînes d'entrée et de sortie. Chaque type de données est soumis à un ensemble d'exigences.

Types de données pris en charge

text/csv : le type de données pour les chaînes CSV
- La chaîne ne peut pas comporter d'en-tête.
- Les fonctionnalités utilisées pour le pipeline d'inférence doivent être dans le même ordre que les fonctionnalités du jeu de données d'entraînement.
- Il doit y avoir une virgule entre les fonctionnalités.
- Les enregistrements doivent être délimités par un caractère de saut de ligne.
Voici un exemple de chaîne CSV correctement formatée que vous pouvez fournir dans une demande d'inférence.
```
abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890                    
                
```
application/json : le type de données pour les chaînes JSON
- Les fonctionnalités utilisées dans le jeu de données pour le pipeline d'inférence doivent être dans le même ordre que les fonctionnalités du jeu de données d'entraînement.
- Les données doivent avoir un schéma spécifique. Vous définissez le schéma comme un objet instances unique doté d'un ensemble de features. Chaque objet features représente une observation.
Voici un exemple de chaîne JSON correctement formatée que vous pouvez fournir dans une demande d'inférence.
```
{
    "instances": [
        {
            "features": ["abc", 0.0, "Doe, John", 12345]
        },
        {
            "features": ["def", 1.1, "Doe, Jane", 67890]
        }
    ]
}                  
                
```

Utiliser un bloc-notes Jupyter pour créer un point de terminaison d'inférence

Utilisez la procédure suivante pour exporter le flux Data Wrangler afin de créer un pipeline d'inférence.

Pour créer un pipeline d'inférence à l'aide d'un bloc-notes Jupyter, procédez comme suit.

Cliquez sur l'icône + en regard du nœud que vous souhaitez exporter.
Choisissez Exporter le flux de données.
Choisissez SageMaker AI Inference Pipeline (via Jupyter Notebook).
Téléchargez le bloc-notes Jupyter ou copiez-le sur un emplacement Amazon S3. Nous vous recommandons de le copier vers un emplacement Amazon S3 auquel vous pouvez accéder dans Studio Classic. Contactez votre administrateur si vous avez besoin de conseils pour trouver un emplacement approprié.
Exécutez le bloc-notes Jupyter.

Lorsque vous exécutez le bloc-notes Jupyter, il crée un artefact de flux d'inférence. Un artefact de flux d'inférence est un fichier de flux Data Wrangler contenant des métadonnées supplémentaires utilisées pour créer le pipeline d'inférence en série. Le nœud que vous exportez englobe toutes les transformations des nœuds précédents.

Important

Data Wrangler a besoin de l'artefact du flux d'inférence pour exécuter le pipeline d'inférence. Vous ne pouvez pas utiliser votre propre fichier de flux comme artefact. Vous devez le créer à l'aide de la procédure précédente.

Automatisez la préparation des données à l'aide du code Python

Pour exporter toutes les étapes du flux de données vers un fichier Python que vous pouvez intégrer manuellement à n'importe quel flux de travail de traitement de données, utilisez la procédure suivante.

Utilisez la procédure suivante pour générer un bloc-notes Jupyter et l'exécuter pour exporter votre flux Data Wrangler vers du code Python.

Cliquez sur l'icône + en regard du nœud que vous souhaitez exporter.
Choisissez Exporter le flux de données.
Choisissez Python Code (Code Python).
Téléchargez le bloc-notes Jupyter ou copiez-le sur un emplacement Amazon S3. Nous vous recommandons de le copier vers un emplacement Amazon S3 auquel vous pouvez accéder dans Studio Classic. Contactez votre administrateur si vous avez besoin de conseils pour trouver un emplacement approprié.
Exécutez le bloc-notes Jupyter.

Vous devrez peut-être configurer le script Python pour qu'il s'exécute dans votre pipeline. Par exemple, si vous utilisez un environnement Spark, assurez-vous que vous exécutez le script depuis un environnement autorisé à accéder aux AWS ressources.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Créez un calendrier pour traiter automatiquement les nouvelles données

Modèles de base de l'IA générative

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Automatisez la préparation des données dans SageMaker Canvas

Automatisez la préparation des données grâce aux pipelines

Utiliser un bloc-notes Jupyter pour créer un pipeline

Automatisez la préparation des données à l'aide d'un point d'inférence

Important

Pour préparer vos données à l'inférence à l'aide de transformations non prises en charge

Types de données pris en charge

Utiliser un bloc-notes Jupyter pour créer un point de terminaison d'inférence

Important

Automatisez la préparation des données à l'aide du code Python

Sur cette page

Related resources

Cette page vous a-t-elle été utile ?

Related resources

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?