Recommandations pour choisir le bon outil de préparation des données dans SageMaker - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Recommandations pour choisir le bon outil de préparation des données dans SageMaker

La préparation des données dans le cadre de l'apprentissage automatique fait référence au processus de collecte, de prétraitement et d'organisation des données brutes afin de les rendre adaptées à l'analyse et à la modélisation. Cette étape garantit que les données sont dans un format à partir duquel les algorithmes d'apprentissage automatique peuvent apprendre efficacement. Les tâches de préparation des données peuvent inclure la gestion des valeurs manquantes, la suppression des valeurs aberrantes, la mise à l'échelle des fonctionnalités, le codage de variables catégorielles, l'évaluation des biais potentiels et la prise de mesures pour les atténuer, la division des données en ensembles de formation et de test, l'étiquetage et les autres transformations nécessaires pour optimiser la qualité et l'utilisabilité des données pour les tâches d'apprentissage automatique ultérieures.

Choisissez une fonctionnalité

Il existe 3 principaux cas d'utilisation pour la préparation des données avec Amazon SageMaker. Choisissez le cas d'utilisation qui correspond à vos besoins, puis reportez-vous à la fonctionnalité recommandée correspondante.

Cas d’utilisation

Voici les principaux cas d'utilisation lors de la préparation des données pour le Machine Learning.

  • Cas d'utilisation 1 : pour ceux qui préfèrent une interface visuelle, SageMaker fournit des moyens d'explorer, de préparer et de concevoir des fonctionnalités pour la formation des modèles dans un point-and-click environnement.

  • Cas d'utilisation 2 : pour les utilisateurs habitués au codage qui souhaitent plus de flexibilité et de contrôle sur la préparation des données, SageMaker intègre des outils dans ses environnements de codage pour l'exploration, les transformations et l'ingénierie des fonctionnalités.

  • Cas d'utilisation 3 : Pour les utilisateurs axés sur la préparation évolutive des données, SageMaker propose des fonctionnalités sans serveur qui tirent parti de l'écosystème Hadoop/Spark pour le traitement distribué des mégadonnées.

Le tableau suivant décrit les principales considérations et les compromis relatifs aux SageMaker fonctionnalités liées à chaque cas d'utilisation de la préparation des données pour l'apprentissage automatique. Pour commencer, identifiez le cas d'utilisation qui correspond à vos besoins et accédez à la SageMaker fonctionnalité recommandée.

Cas d'utilisation 1 Cas d'utilisation 2 Cas d'utilisation 3
SageMaker fonctionnalité Data Wrangler dans Amazon Canvas SageMaker Préparer les données avec SQL in Studio Préparer les données à l'aide de EMR Serverlessapplications dans Studio
Description SageMaker Canvas est un environnement visuel à faible code permettant de créer, de former et de déployer des modèles d'apprentissage automatique dans SageMaker. Son outil Data Wrangler intégré permet aux utilisateurs de combiner, de transformer et de nettoyer des ensembles de données par le biais d'interactions. point-and-click L'SQLextension de Studio permet aux utilisateurs de se connecter à Amazon Redshift, Snowflake, Athena et Amazon S3 pour créer des requêtes ad hoc et prévisualiser les résultats dans SQL des blocs-notes. JupyterLab Le résultat de ces requêtes peut être manipulé à l'aide de Python and Pandas pour un traitement, une visualisation et une transformation supplémentaires dans des formats utilisables pour le développement de modèles d'apprentissage automatique. L'intégration entre EMR Serverless et Amazon SageMaker Studio fournit un environnement sans serveur évolutif pour la préparation de données à grande échelle pour l'apprentissage automatique à l'aide de frameworks open source tels qu'Apache Spark et Apache Hive. Les utilisateurs peuvent accéder directement aux applications et aux données EMR sans serveur à partir de leurs blocs-notes Studio pour effectuer leurs tâches de préparation des données à grande échelle.
Optimisé pour À l'aide d'une interface visuelle dans laquelle vous pouvez :

Optimisé pour les tâches de données tabulaires telles que la gestion des valeurs manquantes, le codage de variables catégorielles et l'application de transformations de données.

Pour les utilisateurs dont les données se trouvent dans Amazon Redshift, Snowflake, Athena ou Amazon S3 et qui souhaitent combiner l'exploration et SQL Python pour l'analyse et la préparation des données sans avoir besoin d'apprendre Spark. Pour les utilisateurs qui préfèrent une expérience sans serveur avec provisionnement et arrêt automatiques des ressources pour faire évoluer des charges de travail interactives intermittentes ou de courte durée autour d'Apache Spark, tout en tirant parti des fonctionnalités d'apprentissage automatique de SageMaker ce logiciel.
Considérations
  • Ce n'est peut-être pas le meilleur choix si votre équipe possède déjà une expertise en Python, Spark ou dans d'autres langages.

  • Ce n'est peut-être pas la solution idéale si vous avez besoin d'une flexibilité totale pour personnaliser les transformations afin d'ajouter une logique métier complexe ou si vous avez besoin d'un contrôle total sur votre environnement de traitement des données.

  • Cette fonctionnalité est conçue pour les données structurées résidant dans Amazon Redshift, Snowflake, Athena ou Amazon S3 uniquement.

  • Si la taille des résultats de votre requête dépasse la mémoire de votre SageMaker instance, le bloc-notes suivant peut vous aider à démarrer avec Athena afin de préparer vos données en vue de leur ingestion par un SageMaker algorithme.

  • La courbe d'apprentissage pour les utilisateurs qui ne sont pas familiarisés avec les applications EMR sans serveur et les outils basés sur Spark peut être difficile.

  • Cette fonctionnalité est mieux adaptée aux tâches interactives de préparation des données et peut ne pas être aussi efficace que les EMR clusters Amazon pour les besoins de traitement de données complexes, de longue durée ou à grande échelle impliquant d'énormes quantités de données, une intégration étendue avec d'autres services, des applications personnalisées ou divers frameworks de traitement de données distribués autres qu'Apache Spark.

  • Bien que l'informatique sans serveur puisse être rentable pour les tâches de courte durée, il est essentiel de surveiller et de gérer les coûts avec soin, en particulier pour les charges de travail de longue durée ou gourmandes en ressources.

Environnement recommandé Commencer à utiliser SageMaker Canvas Lancer Studio Lancer Studio

Options supplémentaires

SageMaker propose les options supplémentaires suivantes pour préparer vos données en vue de leur utilisation dans des modèles d'apprentissage automatique.

  • Préparez les données à l'aide de EMR clusters Amazon: Pour les tâches de traitement de données de longue durée, gourmandes en calculs et à grande échelle, pensez à utiliser les EMR clusters Amazon de Studio. SageMaker Les EMR clusters Amazon sont conçus pour gérer une parallélisation massive et peuvent s'adapter à des centaines ou des milliers de nœuds, ce qui les rend parfaitement adaptés aux charges de travail de Big Data qui nécessitent des frameworks tels qu'Apache Spark, Hadoop, Hive et Presto. L'intégration d'Amazon EMR à SageMaker Studio vous permet de tirer parti de l'évolutivité et des performances d'AmazonEMR, tout en centralisant et en gérant l'intégralité de votre expérimentation du ML, de la formation des modèles et du déploiement au sein de l'environnement SageMaker Studio.

  • Préparez les données à l'aide de sessions interactives Glue : vous pouvez utiliser le moteur sans serveur basé sur Apache Spark à partir de AWS Glue sessions interactives pour agréger, transformer et préparer des données provenant de sources multiples dans SageMaker Studio.

  • Identifiez les biais dans les données de formation à l'aide des tâches de traitement Amazon SageMaker SageMaker Clarify : Clarify analyse vos données et détecte les biais potentiels sur de multiples aspects. Par exemple, vous pouvez utiliser Clarify API dans Studio pour détecter si vos données d'entraînement contiennent des représentations déséquilibrées ou des biais d'étiquetage entre des groupes tels que le sexe, la race ou l'âge. Clarify peut vous aider à identifier ces biais avant d'entraîner un modèle afin d'éviter de les propager dans les prédictions du modèle.

  • Créez, stockez et partagez des fonctionnalités : Amazon SageMaker Feature Store optimise la découverte et la réutilisation de fonctionnalités sélectionnées pour le machine learning. Il fournit un référentiel centralisé pour stocker les données des fonctionnalités qui peuvent être recherchées et récupérées pour l'entraînement des modèles. Le stockage des fonctionnalités dans un format standardisé permet de les réutiliser dans les projets ML. Le Feature Store gère le cycle de vie complet des fonctionnalités, y compris le suivi du lignage, les statistiques et les pistes d'audit pour une ingénierie des fonctionnalités d'apprentissage automatique évolutive et gouvernée.

  • Étiquetez les données avec un human-in-the-loop : vous pouvez utiliser SageMaker Ground Truth pour gérer les flux de travail d'étiquetage des données de vos ensembles de données d'entraînement.

  • Utiliser SageMaker le traitement API : après avoir effectué une analyse exploratoire des données et créé les étapes de transformation de vos données, vous pouvez produire votre code de transformation à l'aide de tâches de SageMaker traitement et automatiser votre flux de préparation à l'aide de SageMaker Model Building Pipelines.