Modifier la configuration d'échantillonnage du flux de données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Modifier la configuration d'échantillonnage du flux de données

Lorsque vous importez des données tabulaires dans un flux de données Data Wrangler, vous pouvez choisir de prélever un échantillon de votre ensemble de données afin d'accélérer le processus d'exploration et de nettoyage des données. L'exécution de transformations exploratoires sur un échantillon de votre jeu de données est souvent plus rapide que l'exécution de transformations sur l'ensemble de votre ensemble de données, et lorsque vous êtes prêt à exporter votre ensemble de données et à créer un modèle, vous pouvez appliquer les transformations à l'ensemble de données.

Canvas prend en charge les méthodes d'échantillonnage suivantes :

  • FirstK — Canvas sélectionne les K premiers éléments de votre jeu de données, où K est un nombre que vous spécifiez. Cette méthode d'échantillonnage est simple mais peut introduire un biais si votre ensemble de données n'est pas ordonné de manière aléatoire.

  • Aléatoire — Canvas sélectionne des éléments de l'ensemble de données au hasard, chaque élément ayant une probabilité égale d'être choisi. Cette méthode d'échantillonnage permet de garantir que l'échantillon est représentatif de l'ensemble de données dans son intégralité.

  • Stratifié — Canvas divise l'ensemble de données en groupes (ou strates) en fonction d'un ou de plusieurs attributs (par exemple, l'âge et le niveau de revenu). Ensuite, un nombre proportionnel d'éléments est sélectionné au hasard dans chaque groupe. Cette méthode garantit que tous les sous-groupes concernés sont correctement représentés dans l'échantillon.

Vous pouvez modifier votre configuration d'échantillonnage à tout moment pour modifier la taille de l'échantillon utilisé pour l'exploration des données.

Pour modifier votre configuration d'échantillonnage, procédez comme suit :

  1. Dans votre graphique de flux de données, sélectionnez le nœud de votre source de données.

  2. Choisissez Échantillonnage dans la barre de navigation inférieure.

  3. La boîte de dialogue Sampling s'ouvre. Dans le menu déroulant Méthode d'échantillonnage, sélectionnez la méthode d'échantillonnage souhaitée.

  4. Dans Taille d'échantillon maximale, entrez le nombre de lignes que vous souhaitez échantillonner.

  5. Choisissez Mettre à jour pour enregistrer vos modifications.

Les modifications apportées à votre configuration d'échantillonnage doivent maintenant être appliquées.