Préparez les données ML avec Amazon SageMaker Data Wrangler - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparez les données ML avec Amazon SageMaker Data Wrangler

Important

Amazon SageMaker Data Wrangler a été intégré à Amazon SageMaker Canvas. Dans la nouvelle expérience Data Wrangler de SageMaker Canvas, vous pouvez utiliser une interface en langage naturel pour explorer et transformer vos données en plus de l'interface visuelle. Pour plus d'informations sur Data Wrangler dans SageMaker Canvas, consultez. Préparation des données

Amazon SageMaker Data Wrangler (Data Wrangler) est une fonctionnalité d'Amazon SageMaker Studio Classic qui fournit une end-to-end solution pour importer, préparer, transformer, présenter et analyser des données. Vous pouvez intégrer un flux de préparation de données Data Wrangler dans vos flux de travail de machine learning (ML) afin de simplifier et de rationaliser le prétraitement des données et l'ingénierie des fonctionnalités en utilisant peu ou pas de codage. Vous pouvez également ajouter vos propres scripts et transformations Python pour personnaliser les flux de travail.

Data Wrangler fournit les principales fonctionnalités suivantes pour vous aider à analyser et à préparer les données pour les applications de machine learning.

  • Importation — Connectez-vous et importez des données depuis Amazon Simple Storage Service (Amazon S3), Amazon Athena (Athena), Amazon Redshift, Snowflake et Databricks.

  • Data Flow (Flux de données) – Créez un flux de données permettant de définir une série d'étapes de préparation des données ML. Vous pouvez utiliser un flux pour combiner des jeux de données provenant de différentes sources de données, identifier le nombre et les types de transformations que vous souhaitez appliquer aux jeux de données, et définir un flux de préparation des données qui peut être intégré à un pipeline ML.

  • Transform (Transformation) – Nettoyez et transformez votre jeu de données à l'aide de transformations standard, telles que les outils de formatage de chaînes, de vecteurs et de données numériques. Caractérisez vos données à l'aide de transformations telles que l'encapsulation de texte et de date/heure et l'encodage catégoriel.

  • Generate Data Insights (Générer une analyse de données) : vérifiez automatiquement la qualité des données et détectez des anomalies dans vos données grâce à Data Wrangler Data Insights and Quality Report.

  • Analyze (Analyser) – Analysez les caractéristiques de votre jeu de données à n'importe quel moment de votre flux. Data Wrangler dispose d'outils intégrés de visualisation des données, tels que des diagrammes de dispersion et des histogrammes, ainsi que d'outils d'analyse des données, tels que l'analyse des fuites de cibles et la modélisation rapide pour comprendre la corrélation des caractéristiques.

  • Export (Exporter) : exportez votre flux de travail de préparation des données vers un autre emplacement. Voici des exemples d'emplacements :

    • Compartiment Amazon Simple Storage Service (Amazon S3)

    • Amazon SageMaker Model Building Pipelines : utilisez des SageMaker pipelines pour automatiser le déploiement des modèles. Vous pouvez exporter les données que vous avez transformées directement vers les pipelines.

    • Amazon SageMaker Feature Store : stockez les fonctionnalités et leurs données dans un magasin centralisé.

    • Script Python : stockez les données et leurs transformations dans un script Python pour vos flux de travail personnalisés.

Pour commencer à utiliser Data Wrangler, consultez Démarrer avec Data Wrangler.

Important

Data Wrangler ne prend plus en charge la version 1 de Jupyter Lab (). JL1 Pour accéder aux dernières fonctionnalités et mises à jour, effectuez la mise à jour vers la version 3 de Jupyter Lab. Pour plus d'informations sur la mise à niveau, consultez Afficher et mettre à jour la JupyterLab version d'une application depuis la console.

Important

Les informations et les procédures de ce guide utilisent la dernière version d'Amazon SageMaker Studio Classic. Pour plus d'informations sur la mise à jour de Studio Classic vers la dernière version, consultezPrésentation de l'interface utilisateur Amazon SageMaker Studio Classic.

Vous devez utiliser Studio Classic version 1.3.0 ou ultérieure. Suivez la procédure ci-dessous pour ouvrir Amazon SageMaker Studio Classic et voir quelle version vous utilisez.

Pour ouvrir Studio Classic et vérifier sa version, consultez la procédure suivante.

  1. Suivez les étapes ci-dessous Prérequis pour accéder à Data Wrangler via Amazon SageMaker Studio Classic.

  2. À côté de l'utilisateur que vous souhaitez utiliser pour lancer Studio Classic, sélectionnez Lancer l'application.

  3. Choisissez Studio.

  4. Une fois Studio Classic chargé, sélectionnez Fichier, Nouveau, puis Terminal.

    Les options du menu contextuel de Studio Classic décrites à l'étape 4.
  5. Une fois que vous avez lancé Studio Classic, sélectionnez Fichier, puis Nouveau, puis Terminal.

  6. Entrez cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@" pour imprimer la version de votre instance Studio Classic. Vous devez disposer de la version 1.3.0 de Studio Classic pour utiliser Snowflake.

    Une fenêtre de terminal s'est ouverte dans Studio Classic avec la commande de l'étape 6 copiée et collée.

Vous pouvez mettre à jour Amazon SageMaker Studio Classic depuis le AWS Management Console. Pour plus d'informations sur la mise à jour de Studio Classic, consultezPrésentation de l'interface utilisateur Amazon SageMaker Studio Classic.