Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exporter les données
Exportez les données pour appliquer les transformations de votre flux de données à l'ensemble de données importé dans son intégralité. Vous pouvez exporter n'importe quel nœud de votre flux de données vers les emplacements suivants :
-
SageMaker Ensemble de données Canvas
-
Amazon S3
Si vous souhaitez entraîner des modèles dans Canvas, vous pouvez exporter votre ensemble de données transformé complet en tant que jeu de données Canvas. Si vous souhaitez utiliser vos données transformées dans des flux de travail d'apprentissage automatique externes à SageMaker Canvas, vous pouvez exporter votre ensemble de données vers Amazon S3.
Exporter vers un jeu de données Canvas
Utilisez la procédure suivante pour exporter un jeu de données SageMaker Canvas depuis un nœud de votre flux de données.
Pour exporter un nœud de votre flux en tant que jeu de données SageMaker Canvas
-
Accédez à votre flux de données.
-
Cliquez sur l'icône représentant des points de suspension à côté du nœud que vous exportez.
-
Dans le menu contextuel, survolez Exporter, puis sélectionnez Exporter les données vers le jeu de données Canvas.
-
Dans le panneau latéral Exporter vers le jeu de données Canvas, entrez le nom du nouveau jeu de données.
-
Laissez l'option Traiter l'ensemble de données sélectionnée si vous souhaitez que SageMaker Canvas traite et enregistre l'ensemble de données complet. Désactivez cette option pour appliquer les transformations uniquement aux exemples de données avec lesquels vous travaillez dans votre flux de données.
-
Cliquez sur Exporter.
Vous devriez maintenant pouvoir accéder à la page Ensembles de données de l'application Canvas et voir votre nouveau jeu de données.
Exporter vers Amazon S3
Lorsque vous exportez vos données vers Amazon S3, vous pouvez les adapter pour transformer et traiter des données de toute taille. Canvas traite automatiquement vos données localement si la mémoire de l'application peut gérer la taille de votre ensemble de données. Si la taille de votre jeu de données dépasse la capacité de mémoire locale de 5 Go, Canvas lance une tâche à distance en votre nom afin de fournir des ressources de calcul supplémentaires et de traiter les données plus rapidement. Par défaut, Canvas utilise Amazon EMR Serverless pour exécuter ces tâches à distance. Cependant, vous pouvez configurer manuellement Canvas pour utiliser une tâche EMR sans serveur ou une tâche SageMaker de traitement avec vos propres paramètres.
Note
Lors de l'exécution d'une tâche EMR sans serveur, la tâche hérite par défaut du IAM rôle, des paramètres KMS clés et des balises de votre application Canvas.
Voici un résumé des options pour les tâches à distance dans Canvas :
-
EMRSans serveur : il s'agit de l'option par défaut utilisée par Canvas pour les tâches à distance. EMRServerless provisionne et adapte automatiquement les ressources informatiques pour traiter vos données afin que vous n'ayez pas à vous soucier de choisir les ressources informatiques adaptées à votre charge de travail. Pour plus d'informations sur EMR Serverless, consultez le Guide de l'utilisateur EMR Serverless.
-
SageMaker Traitement : les tâches de SageMaker traitement offrent des options plus avancées et un contrôle granulaire des ressources informatiques utilisées pour traiter vos données. Par exemple, vous pouvez spécifier le type et le nombre d'instances de calcul, configurer vous-même la tâche VPC et contrôler l'accès au réseau, automatiser les tâches de traitement, etc. Pour plus d'informations sur l'automatisation des tâches de traitement, voirCréez un calendrier pour traiter automatiquement les nouvelles données. Pour des informations plus générales sur SageMaker le traitement des tâches, consultezCharges de travail de transformation des données avec Processing SageMaker .
Les types de fichiers suivants sont pris en charge lors de l'exportation vers Amazon S3 :
-
CSV
-
Parquet
Pour commencer, consultez les conditions préalables suivantes.
Conditions requises pour les tâches EMR sans serveur
Pour créer une tâche distante utilisant des ressources EMR sans serveur, vous devez disposer des autorisations nécessaires. Vous pouvez accorder des autorisations via le SageMaker domaine Amazon ou les paramètres du profil utilisateur, ou vous pouvez configurer manuellement le AWS IAM rôle de votre utilisateur. Pour obtenir des instructions sur la façon d'accorder aux utilisateurs les autorisations nécessaires au traitement de données volumineuses, consultezAutoriser les utilisateurs à utiliser des données volumineuses tout au long du cycle de vie du machine learning.
Si vous ne souhaitez pas configurer ces politiques mais que vous devez tout de même traiter de grands ensembles de données via Data Wrangler, vous pouvez également utiliser une SageMaker tâche de traitement.
Utilisez les procédures suivantes pour exporter vos données vers Amazon S3. Pour configurer une tâche à distance, suivez les étapes avancées facultatives.
Pour exporter un nœud de votre flux vers Amazon S3
-
Accédez à votre flux de données.
-
Cliquez sur l'icône représentant des points de suspension à côté du nœud que vous exportez.
-
Dans le menu contextuel, passez le curseur sur Exporter, puis sélectionnez Exporter les données vers Amazon S3.
-
Dans le panneau latéral Exporter vers Amazon S3, vous pouvez modifier le nom du jeu de données pour le nouveau jeu de données.
-
Pour l'emplacement S3, entrez l'emplacement Amazon S3 vers lequel vous souhaitez exporter l'ensemble de données. Vous pouvez saisir le S3URI, l'alias, ARN l'emplacement S3 ou le point d'accès S3. Pour plus d'informations sur les points d'accès, consultez la section Gestion de l'accès aux données avec les points d'accès Amazon S3 dans le guide de l'utilisateur Amazon S3.
-
(Facultatif) Pour les paramètres avancés, spécifiez les valeurs des champs suivants :
-
Type de fichier : format de fichier des données exportées.
-
Délimiteur : délimiteur utilisé pour séparer les valeurs du fichier.
-
Compression : méthode de compression utilisée pour réduire la taille du fichier.
-
Nombre de partitions : nombre de fichiers d'ensemble de données que Canvas écrit en sortie de la tâche.
-
Choisir des colonnes — Vous pouvez choisir un sous-ensemble de colonnes parmi les données à inclure dans les partitions.
-
-
Laissez l'option Traiter l'ensemble de données sélectionnée si vous souhaitez que Canvas applique vos transformations de flux de données à l'ensemble de votre ensemble de données et exporte le résultat. Si vous désélectionnez cette option, Canvas applique les transformations uniquement à l'échantillon de votre jeu de données utilisé dans le flux de données interactif Data Wrangler.
Note
Si vous n'exportez qu'un échantillon de vos données, Canvas traite vos données dans l'application et ne crée pas de travail à distance pour vous.
-
Laissez l'option Configuration automatique des tâches sélectionnée si vous souhaitez que Canvas détermine automatiquement s'il faut exécuter la tâche en utilisant la mémoire de l'application Canvas ou une tâche EMR sans serveur. Si vous désélectionnez cette option et configurez manuellement votre tâche, vous pouvez choisir d'utiliser une tâche EMR sans serveur ou une tâche de SageMaker traitement. Pour obtenir des instructions sur la configuration d'une tâche EMR sans serveur ou d'une tâche de SageMaker traitement, consultez la section qui suit cette procédure avant d'exporter vos données.
-
Cliquez sur Exporter.
Les procédures suivantes montrent comment configurer manuellement les paramètres des tâches à distance pour EMR Serverless ou SageMaker Processing lors de l'exportation de votre ensemble de données complet vers Amazon S3.
Après avoir exporté vos données, vous devriez trouver le jeu de données entièrement traité à l'emplacement Amazon S3 spécifié.