Préparation des données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation des données

Note

Amazon SageMaker Data Wrangler faisait auparavant partie de l'expérience SageMaker Studio Classic. Désormais, si vous passez à la nouvelle expérience Studio, vous devez utiliser SageMaker Canvas pour accéder à Data Wrangler et recevoir les dernières mises à jour des fonctionnalités. Si vous utilisiez Data Wrangler dans Studio Classic jusqu'à présent et que vous souhaitez migrer vers Data Wrangler dans Canvas, vous devrez peut-être accorder des autorisations supplémentaires afin de pouvoir créer et utiliser une application Canvas. Pour de plus amples informations, veuillez consulter (Facultatif) Migrer de Data Wrangler dans Studio Classic vers Canvas SageMaker .

Pour savoir comment migrer vos flux de données depuis Data Wrangler dans Studio Classic, consultez. (Facultatif) Migrer les données de Studio Classic vers Studio

Utilisez Amazon SageMaker Data Wrangler dans Amazon SageMaker Canvas pour préparer, présenter et analyser vos données. Vous pouvez intégrer un flux de préparation de données Data Wrangler dans vos flux de travail de machine learning (ML) afin de simplifier et de rationaliser le prétraitement des données et l'ingénierie des fonctionnalités en utilisant peu ou pas de codage. Vous pouvez également ajouter vos propres scripts et transformations Python pour personnaliser les flux de travail.

  • Data Flow (Flux de données) – Créez un flux de données permettant de définir une série d'étapes de préparation des données ML. Vous pouvez utiliser un flux pour combiner des jeux de données provenant de différentes sources de données, identifier le nombre et les types de transformations que vous souhaitez appliquer aux jeux de données, et définir un flux de préparation des données qui peut être intégré à un pipeline ML.

  • Transform (Transformation) – Nettoyez et transformez votre jeu de données à l'aide de transformations standard, telles que les outils de formatage de chaînes, de vecteurs et de données numériques. Caractérisez vos données à l'aide de transformations telles que l'encapsulation de texte et de date/heure et l'encodage catégoriel.

  • Générez des informations sur les données — Vérifiez automatiquement la qualité des données et détectez les anomalies dans vos données avec Data Wrangler Data Quality and Insights Report.

  • Analyze (Analyser) – Analysez les caractéristiques de votre jeu de données à n'importe quel moment de votre flux. Data Wrangler dispose d'outils intégrés de visualisation des données, tels que des diagrammes de dispersion et des histogrammes, ainsi que d'outils d'analyse des données, tels que l'analyse des fuites de cibles et la modélisation rapide pour comprendre la corrélation des caractéristiques.

  • Export (Exporter) : exportez votre flux de travail de préparation des données vers un autre emplacement. Voici des exemples d'emplacements :

    • Compartiment Amazon Simple Storage Service (Amazon S3)

    • Amazon SageMaker Feature Store : stockez les fonctionnalités et leurs données dans un magasin centralisé.

  • Automatisez la préparation des données : créez des flux de travail d'apprentissage automatique à partir de votre flux de données.

    • Amazon SageMaker Pipelines — Créez des flux de travail qui gèrent la préparation SageMaker des données, la formation des modèles et les tâches de déploiement de modèles.

    • Pipeline d'inférence série : créez un pipeline d'inférence série à partir de votre flux de données. Utilisez-le pour faire des prédictions sur de nouvelles données.

    • Script Python : stockez les données et leurs transformations dans un script Python pour vos flux de travail personnalisés.