Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Préparez les données ML avec Amazon SageMaker Data Wrangler
Important
Amazon SageMaker Data Wrangler a été intégré à Amazon SageMaker Canvas. Dans la nouvelle expérience Data Wrangler de SageMaker Canvas, vous pouvez utiliser une interface en langage naturel pour explorer et transformer vos données en plus de l'interface visuelle. Pour plus d'informations sur Data Wrangler dans SageMaker Canvas, consultez. Préparation des données
Amazon SageMaker Data Wrangler (Data Wrangler) est une fonctionnalité d'Amazon SageMaker Studio Classic qui fournit une end-to-end solution pour importer, préparer, transformer, présenter et analyser des données. Vous pouvez intégrer un flux de préparation de données Data Wrangler dans vos flux de travail de machine learning (ML) afin de simplifier et de rationaliser le prétraitement des données et l'ingénierie des fonctionnalités en utilisant peu ou pas de codage. Vous pouvez également ajouter vos propres scripts et transformations Python pour personnaliser les flux de travail.
Data Wrangler fournit les principales fonctionnalités suivantes pour vous aider à analyser et à préparer les données pour les applications de machine learning.
-
Importation — Connectez-vous et importez des données depuis Amazon Simple Storage Service (Amazon S3), Amazon Athena (Athena), Amazon Redshift, Snowflake et Databricks.
-
Data Flow (Flux de données) – Créez un flux de données permettant de définir une série d'étapes de préparation des données ML. Vous pouvez utiliser un flux pour combiner des jeux de données provenant de différentes sources de données, identifier le nombre et les types de transformations que vous souhaitez appliquer aux jeux de données, et définir un flux de préparation des données qui peut être intégré à un pipeline ML.
-
Transform (Transformation) – Nettoyez et transformez votre jeu de données à l'aide de transformations standard, telles que les outils de formatage de chaînes, de vecteurs et de données numériques. Caractérisez vos données à l'aide de transformations telles que l'encapsulation de texte et de date/heure et l'encodage catégoriel.
-
Generate Data Insights (Générer une analyse de données) : vérifiez automatiquement la qualité des données et détectez des anomalies dans vos données grâce à Data Wrangler Data Insights and Quality Report.
-
Analyze (Analyser) – Analysez les caractéristiques de votre jeu de données à n'importe quel moment de votre flux. Data Wrangler dispose d'outils intégrés de visualisation des données, tels que des diagrammes de dispersion et des histogrammes, ainsi que d'outils d'analyse des données, tels que l'analyse des fuites de cibles et la modélisation rapide pour comprendre la corrélation des caractéristiques.
-
Export (Exporter) : exportez votre flux de travail de préparation des données vers un autre emplacement. Voici des exemples d'emplacements :
-
Compartiment Amazon Simple Storage Service (Amazon S3)
-
Amazon SageMaker Pipelines — Utilisez des pipelines pour automatiser le déploiement des modèles. Vous pouvez exporter les données que vous avez transformées directement vers les pipelines.
-
Amazon SageMaker Feature Store : stockez les fonctionnalités et leurs données dans un magasin centralisé.
-
Script Python : stockez les données et leurs transformations dans un script Python pour vos flux de travail personnalisés.
-
Pour commencer à utiliser Data Wrangler, consultez Démarrer avec Data Wrangler.
Important
Data Wrangler ne prend plus en charge la version 1 de Jupyter Lab (). JL1 Pour accéder aux dernières fonctionnalités et mises à jour, effectuez la mise à jour vers la version 3 de Jupyter Lab. Pour plus d'informations sur la mise à niveau, consultez Afficher et mettre à jour la JupyterLab version d'une application depuis la console.
Important
Les informations et les procédures de ce guide utilisent la dernière version d'Amazon SageMaker Studio Classic. Pour plus d'informations sur la mise à jour de Studio Classic vers la dernière version, consultezPrésentation de l'interface utilisateur Amazon SageMaker Studio Classic.
Vous devez utiliser Studio Classic version 1.3.0 ou ultérieure. Suivez la procédure ci-dessous pour ouvrir Amazon SageMaker Studio Classic et voir quelle version vous utilisez.
Pour ouvrir Studio Classic et vérifier sa version, consultez la procédure suivante.
-
Suivez les étapes ci-dessous Prérequis pour accéder à Data Wrangler via Amazon SageMaker Studio Classic.
-
À côté de l'utilisateur que vous souhaitez utiliser pour lancer Studio Classic, sélectionnez Lancer l'application.
-
Choisissez Studio.
-
Une fois Studio Classic chargé, sélectionnez Fichier, Nouveau, puis Terminal.
-
Une fois que vous avez lancé Studio Classic, sélectionnez Fichier, puis Nouveau, puis Terminal.
-
Entrez
cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@"
pour imprimer la version de votre instance Studio Classic. Vous devez disposer de la version 1.3.0 de Studio Classic pour utiliser Snowflake.
Vous pouvez mettre à jour Amazon SageMaker Studio Classic depuis le AWS Management Console. Pour plus d'informations sur la mise à jour de Studio Classic, consultezPrésentation de l'interface utilisateur Amazon SageMaker Studio Classic.
Rubriques
- Démarrer avec Data Wrangler
- Importer
- Créer et utiliser un flux Data Wrangler
- Obtenir des informations sur les données et la qualité des données
- Entraînement automatique des modèles sur votre flux de données
- Transformation de données
- Analyse et visualisation
- Réutilisation de flux de données pour différents jeux de données
- Exporter
- Utilisez un widget interactif de préparation des données dans un bloc-notes Amazon SageMaker Studio Classic pour obtenir des informations sur les données
- Sécurité et autorisations
- Notes de mise à jour
- Dépannage
- Augmenter la limite d'EC2instances Amazon
- Mettre à jour Data Wrangler
- Arrêter Data Wrangler