Recommandations pour choisir le bon outil de préparation des données en SageMaker IA

La préparation des données dans le cadre du machine learning fait référence au processus de collecte, de prétraitement et d’organisation des données brutes afin de les adapter pour l’analyse et la modélisation. Cette étape garantit que les données seront dans un format qui permettra aux algorithmes de machine learning d’apprendre réellement. Les tâches de préparation des données peuvent inclure le traitement des valeurs manquantes, la suppression des valeurs aberrantes, la mise à l’échelle des caractéristiques, le codage de variables catégorielles, l’évaluation des biais potentiels et la prise de mesures pour les atténuer, la division des données en ensembles d’entraînement et de test, l’étiquetage et les autres transformations nécessaires à l’optimisation de la qualité et de l’utilisabilité des données pour les tâches de machine learning ultérieures.

Choix d’une fonctionnalité

Il existe 3 principaux cas d'utilisation pour la préparation des données avec Amazon SageMaker AI. Choisissez le cas d’utilisation qui correspond à vos besoins, puis reportez-vous à la fonctionnalité recommandée correspondante.

Cas d’utilisation

Voici les principaux cas d’utilisation dans le cadre de la préparation des données pour le machine learning.

Cas d'utilisation 1 : Pour ceux qui préfèrent une interface visuelle, l' SageMaker IA permet d'explorer, de préparer et de concevoir des fonctionnalités pour la formation des modèles via un environnement pointer-cliquer.
Cas d'utilisation 2 : Pour les utilisateurs habitués au codage qui souhaitent plus de flexibilité et de contrôle sur la préparation des données, l' SageMaker IA intègre des outils dans ses environnements de codage pour l'exploration, les transformations et l'ingénierie des fonctionnalités.
Cas d'utilisation 3 : Pour les utilisateurs axés sur la préparation évolutive des données, l' SageMaker IA propose des fonctionnalités sans serveur qui tirent parti de l' Hadoop/Sparkécosystème pour le traitement distribué des mégadonnées.

Fonctionnalités recommandées

Le tableau suivant décrit les principales considérations et les compromis relatifs aux fonctionnalités d' SageMaker IA liés à chaque cas d'utilisation de la préparation des données pour l'apprentissage automatique. Pour commencer, identifiez le cas d'utilisation qui correspond à vos besoins et accédez à la fonctionnalité d' SageMaker IA recommandée.

Descripteur	Cas d’utilisation 1	Cas d’utilisation 2	Cas d’utilisation 3
SageMaker Fonctionnalité d'IA	Data Wrangler dans Amazon Canvas SageMaker	Préparation des données avec SQL dans Studio	Applications Préparation des données à l’aide d’EMR sans serveur dans Studio
Description	SageMaker Canvas est un environnement visuel à faible code pour la création, la formation et le déploiement de modèles d'apprentissage automatique dans l' SageMaker IA. Son outil intégré Data Wrangler permet aux utilisateurs de combiner, de transformer et de nettoyer des jeux de données par le biais d’interactions pointer-cliquer.	L'extension SQL de Studio permet aux utilisateurs de se connecter à Amazon Redshift, Snowflake, Athena et Amazon S3 pour créer des requêtes SQL ad hoc et prévisualiser les résultats dans des blocs-notes. JupyterLab Le résultat de ces requêtes peut être manipulé en utilisant Python et Pandas pour un traitement, une visualisation et une transformation supplémentaires dans des formats utilisables pour le développement de modèles de machine learning.	L'intégration entre EMR Serverless et Amazon SageMaker Studio fournit un environnement sans serveur évolutif pour la préparation de données à grande échelle pour le machine learning à l'aide de frameworks open source tels qu'Apache Spark et Apache Hive. Les utilisateurs peuvent accéder directement aux applications et aux données EMR sans serveur depuis leurs blocs-notes Studio pour effectuer leurs tâches de préparation des données à grande échelle.
Optimisé pour	Utilisation d’une interface visuelle dans laquelle vous pouvez : Créer des pipelines de préparation des données Effectuer l’analyse des données Transformer des données à l’aide de transformations intégrées Utiliser les instructions en langage AI-powered naturel de génération pour les transformations de données Optimisé pour les tâches de données tabulaires telles que le traitement des valeurs manquantes, le codage de variables catégorielles et l’application de transformations de données.	Pour les utilisateurs dont les données se trouvent dans Amazon Redshift, Snowflake, Athena ou Amazon S3 et qui souhaitent associer le langage SQL exploratoire et Python pour l’analyse et à la préparation des données sans avoir besoin d’apprendre Spark.	Pour les utilisateurs qui préfèrent une expérience sans serveur avec provisionnement et arrêt automatiques des ressources pour faire évoluer des charges de travail interactives de courte durée ou intermittentes autour d'Apache Spark, tout en tirant parti des capacités d'apprentissage automatique de l' SageMaker IA.
Considérations	Ce n’est peut-être pas le meilleur choix si votre équipe possède déjà une expertise avec Python, Spark ou d’autres langages. Ce n’est peut-être pas la solution idéale si vous avez besoin d’une flexibilité totale pour personnaliser les transformations afin d’ajouter une logique métier complexe ou si vous avez besoin d’un contrôle total sur votre environnement de traitement des données.	Cette fonctionnalité est conçue pour les données structurées résidant dans Amazon Redshift, Snowflake, Athena ou Amazon S3 uniquement. Si la taille des résultats de votre requête dépasse la mémoire de votre instance d' SageMaker IA, le bloc-notes suivant peut vous aider à démarrer avec Athena afin de préparer vos données en vue de leur ingestion par un algorithme d' SageMaker IA.	La courbe d'apprentissage pour les utilisateurs qui ne sont pas familiarisés avec les applications et les Spark-based outils EMR sans serveur peut être difficile. Cette fonctionnalité est mieux adaptée aux tâches interactives de préparation des données et peut ne pas être aussi efficace que les clusters Amazon EMR pour les besoins de traitement de données complexes, de longue durée ou à grande échelle impliquant de grandes quantités de données, une intégration étendue avec d’autres services, des applications personnalisées ou divers cadres de traitement de données distribués autres qu’Apache Spark. Bien que l’informatique sans serveur puisse être rentable pour les tâches de courte durée, il est essentiel de surveiller et de gérer les coûts avec soin, en particulier pour les charges de travail de longue durée ou gourmandes en ressources.
Environnement recommandé	Commencer à utiliser SageMaker Canvas	Lancer Studio	Lancer Studio

Options supplémentaires

SageMaker L'IA propose les options supplémentaires suivantes pour préparer vos données en vue de leur utilisation dans des modèles d'apprentissage automatique.

Préparation des données à l’aide d’Amazon EMR: Pour les tâches de traitement de données de longue durée, gourmandes en calculs et à grande échelle, pensez à utiliser les clusters Amazon EMR de Studio. SageMaker Les clusters Amazon EMR sont conçus pour gérer une parallélisation massive et peuvent être mis à l’échelle vers des centaines ou des milliers de nœuds, ce qui les rend parfaitement adaptés aux charges de travail du big data qui nécessitent des cadres tels qu’Apache Spark, Hadoop, Hive et Presto. L'intégration d'Amazon EMR à SageMaker Studio vous permet de tirer parti de l'évolutivité et des performances d'Amazon EMR, tout en centralisant et en gérant l'intégralité de votre expérimentation du ML, de la formation des modèles et du déploiement au sein de l'environnement Studio. SageMaker
Préparez les données à l'aide de sessions interactives Glue : vous pouvez utiliser le moteur Spark-based sans serveur Apache à partir de sessions AWS Glue interactives pour agréger, transformer et préparer des données provenant de plusieurs sources dans SageMaker Studio.
Identifiez les biais dans les données de formation à l'aide des tâches de traitement Amazon SageMaker SageMaker Clarify : Clarify analyse vos données et détecte les biais potentiels sur de multiples aspects. Par exemple, vous pouvez utiliser l’API Clarify dans Studio pour détecter si vos données d’entraînement contiennent des représentations déséquilibrées ou des biais d’étiquetage entre des groupes tels que le sexe, la race ou l’âge. Clarify peut vous aider à identifier ces biais avant d’entraîner un modèle afin d’éviter de les propager dans les prédictions du modèle.
Créez, stockez et partagez des fonctionnalités : Amazon SageMaker Feature Store optimise la découverte et la réutilisation de fonctionnalités sélectionnées pour le machine learning. Il fournit un référentiel centralisé pour stocker les données des caractéristiques qui peuvent être recherchées et extraites pour l’entraînement des modèles. Le stockage des fonctionnalités dans un format standardisé permet de les réutiliser dans les projets ML. Feature Store gère le cycle de vie complet des fonctionnalités, y compris le suivi de traçabilité, les statistiques et les pistes d’audit pour une ingénierie des caractéristiques de machine learning évolutive et gouvernée.
Étiquetez les données à l'aide d'un humain : vous pouvez utiliser SageMaker Ground Truth pour gérer les flux de travail d'étiquetage des données de vos ensembles de données d'entraînement.
Utiliser l'API de SageMaker traitement : après avoir effectué une analyse exploratoire des données et créé les étapes de transformation de vos données, vous pouvez produire votre code de transformation à l'aide de tâches de traitement par SageMaker IA et automatiser votre flux de préparation à l'aide de pipelines de construction de SageMaker modèles.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Références API

Préparation des données avec SQL dans Studio