Exporter les données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exporter les données

Exportez les données pour appliquer les transformations de votre flux de données à l'ensemble de données importé dans son intégralité. Vous pouvez exporter n'importe quel nœud de votre flux de données vers les emplacements suivants :

  • SageMaker Ensemble de données Canvas

  • Amazon S3

Si vous souhaitez entraîner des modèles dans Canvas, vous pouvez exporter votre ensemble de données transformé complet en tant que jeu de données Canvas. Si vous souhaitez utiliser vos données transformées dans des flux de travail d'apprentissage automatique externes à SageMaker Canvas, vous pouvez exporter votre ensemble de données vers Amazon S3.

Exporter vers un jeu de données Canvas

Utilisez la procédure suivante pour exporter un jeu de données SageMaker Canvas depuis un nœud de votre flux de données.

Pour exporter un nœud de votre flux en tant que jeu de données SageMaker Canvas
  1. Accédez à votre flux de données.

  2. Cliquez sur l'icône représentant des points de suspension à côté du nœud que vous exportez.

  3. Dans le menu contextuel, survolez Exporter, puis sélectionnez Exporter les données vers le jeu de données Canvas.

  4. Dans le panneau latéral Exporter vers le jeu de données Canvas, entrez le nom du nouveau jeu de données.

  5. Laissez l'option Traiter l'ensemble de données sélectionnée si vous souhaitez que SageMaker Canvas traite et enregistre l'ensemble de données complet. Désactivez cette option pour appliquer les transformations uniquement aux exemples de données avec lesquels vous travaillez dans votre flux de données.

  6. Cliquez sur Exporter.

Vous devriez maintenant pouvoir accéder à la page Ensembles de données de l'application Canvas et voir votre nouveau jeu de données.

Exporter vers Amazon S3

Lorsque vous exportez vos données vers Amazon S3, vous pouvez les adapter pour transformer et traiter des données de toute taille. Canvas traite automatiquement vos données localement si la mémoire de l'application peut gérer la taille de votre ensemble de données. Si la taille de votre jeu de données dépasse la capacité de mémoire locale de 5 Go, Canvas lance une tâche à distance en votre nom afin de fournir des ressources de calcul supplémentaires et de traiter les données plus rapidement. Par défaut, Canvas utilise Amazon EMR Serverless pour exécuter ces tâches à distance. Cependant, vous pouvez configurer manuellement Canvas pour utiliser une tâche EMR sans serveur ou une tâche SageMaker de traitement avec vos propres paramètres.

Note

Lors de l'exécution d'une tâche EMR sans serveur, la tâche hérite par défaut du IAM rôle, des paramètres KMS clés et des balises de votre application Canvas.

Voici un résumé des options pour les tâches à distance dans Canvas :

  • EMRSans serveur : il s'agit de l'option par défaut utilisée par Canvas pour les tâches à distance. EMRServerless provisionne et adapte automatiquement les ressources informatiques pour traiter vos données afin que vous n'ayez pas à vous soucier de choisir les ressources informatiques adaptées à votre charge de travail. Pour plus d'informations sur EMR Serverless, consultez le Guide de l'utilisateur EMR Serverless.

  • SageMaker Traitement : les tâches de SageMaker traitement offrent des options plus avancées et un contrôle granulaire des ressources informatiques utilisées pour traiter vos données. Par exemple, vous pouvez spécifier le type et le nombre d'instances de calcul, configurer vous-même la tâche VPC et contrôler l'accès au réseau, automatiser les tâches de traitement, etc. Pour plus d'informations sur l'automatisation des tâches de traitement, voirCréez un calendrier pour traiter automatiquement les nouvelles données. Pour des informations plus générales sur SageMaker le traitement des tâches, consultezCharges de travail de transformation des données avec Processing SageMaker .

Les types de fichiers suivants sont pris en charge lors de l'exportation vers Amazon S3 :

  • CSV

  • Parquet

Pour commencer, consultez les conditions préalables suivantes.

Conditions requises pour les tâches EMR sans serveur

Pour créer une tâche distante utilisant des ressources EMR sans serveur, vous devez disposer des autorisations nécessaires. Vous pouvez accorder des autorisations via le SageMaker domaine Amazon ou les paramètres du profil utilisateur, ou vous pouvez configurer manuellement le AWS IAM rôle de votre utilisateur. Pour obtenir des instructions sur la façon d'accorder aux utilisateurs les autorisations nécessaires au traitement de données volumineuses, consultezAutoriser les utilisateurs à utiliser des données volumineuses tout au long du cycle de vie du machine learning.

Si vous ne souhaitez pas configurer ces politiques mais que vous devez tout de même traiter de grands ensembles de données via Data Wrangler, vous pouvez également utiliser une SageMaker tâche de traitement.

Utilisez les procédures suivantes pour exporter vos données vers Amazon S3. Pour configurer une tâche à distance, suivez les étapes avancées facultatives.

Pour exporter un nœud de votre flux vers Amazon S3
  1. Accédez à votre flux de données.

  2. Cliquez sur l'icône représentant des points de suspension à côté du nœud que vous exportez.

  3. Dans le menu contextuel, passez le curseur sur Exporter, puis sélectionnez Exporter les données vers Amazon S3.

  4. Dans le panneau latéral Exporter vers Amazon S3, vous pouvez modifier le nom du jeu de données pour le nouveau jeu de données.

  5. Pour l'emplacement S3, entrez l'emplacement Amazon S3 vers lequel vous souhaitez exporter l'ensemble de données. Vous pouvez saisir le S3URI, l'alias, ARN l'emplacement S3 ou le point d'accès S3. Pour plus d'informations sur les points d'accès, consultez la section Gestion de l'accès aux données avec les points d'accès Amazon S3 dans le guide de l'utilisateur Amazon S3.

  6. (Facultatif) Pour les paramètres avancés, spécifiez les valeurs des champs suivants :

    1. Type de fichier : format de fichier des données exportées.

    2. Délimiteur : délimiteur utilisé pour séparer les valeurs du fichier.

    3. Compression : méthode de compression utilisée pour réduire la taille du fichier.

    4. Nombre de partitions : nombre de fichiers d'ensemble de données que Canvas écrit en sortie de la tâche.

    5. Choisir des colonnes — Vous pouvez choisir un sous-ensemble de colonnes parmi les données à inclure dans les partitions.

  7. Laissez l'option Traiter l'ensemble de données sélectionnée si vous souhaitez que Canvas applique vos transformations de flux de données à l'ensemble de votre ensemble de données et exporte le résultat. Si vous désélectionnez cette option, Canvas applique les transformations uniquement à l'échantillon de votre jeu de données utilisé dans le flux de données interactif Data Wrangler.

    Note

    Si vous n'exportez qu'un échantillon de vos données, Canvas traite vos données dans l'application et ne crée pas de travail à distance pour vous.

  8. Laissez l'option Configuration automatique des tâches sélectionnée si vous souhaitez que Canvas détermine automatiquement s'il faut exécuter la tâche en utilisant la mémoire de l'application Canvas ou une tâche EMR sans serveur. Si vous désélectionnez cette option et configurez manuellement votre tâche, vous pouvez choisir d'utiliser une tâche EMR sans serveur ou une tâche de SageMaker traitement. Pour obtenir des instructions sur la configuration d'une tâche EMR sans serveur ou d'une tâche de SageMaker traitement, consultez la section qui suit cette procédure avant d'exporter vos données.

  9. Cliquez sur Exporter.

Les procédures suivantes montrent comment configurer manuellement les paramètres des tâches à distance pour EMR Serverless ou SageMaker Processing lors de l'exportation de votre ensemble de données complet vers Amazon S3.

EMR Serverless

Pour configurer une tâche EMR sans serveur lors de l'exportation vers Amazon S3, procédez comme suit :

  1. Dans le panneau latéral Exporter vers Amazon S3, désactivez l'option de configuration automatique des tâches.

  2. Sélectionnez EMRServerless.

  3. Dans Nom de la tâche, entrez le nom de votre tâche EMR sans serveur. Le nom peut contenir des lettres, des chiffres, des traits d'union et des traits de soulignement.

  4. Pour IAMrôle, entrez le rôle d'IAMexécution de l'utilisateur. Ce rôle doit disposer des autorisations requises pour exécuter des applications EMR sans serveur. Pour de plus amples informations, veuillez consulter Autoriser les utilisateurs à utiliser des données volumineuses tout au long du cycle de vie du machine learning.

  5. (Facultatif) Pour la KMSclé, spécifiez l'ID de la clé ou celui ARN d'un AWS KMS key pour chiffrer les journaux des tâches. Si vous ne saisissez aucune clé, Canvas utilise une clé par défaut pour EMR Serverless.

  6. (Facultatif) Pour la configuration de la surveillance, entrez le nom du groupe de CloudWatch journaux Amazon Logs dans lequel vous souhaitez publier vos journaux.

  7. (Facultatif) Pour les balises, ajoutez des balises de métadonnées à la tâche EMR sans serveur composées de paires clé-valeur. Ces balises peuvent être utilisées pour classer et rechercher des offres d'emploi.

  8. Choisissez Export pour démarrer la tâche.

SageMaker Processing

Pour configurer une tâche SageMaker de traitement lors de l'exportation vers Amazon S3, procédez comme suit :

  1. Dans le panneau latéral Exporter vers Amazon S3, désactivez l'option de configuration automatique des tâches.

  2. Sélectionnez SageMaker Traitement.

  3. Dans Nom de la tâche, entrez le nom de votre tâche SageMaker de traitement.

  4. Pour Type d'instance, sélectionnez le type d'instance de calcul pour exécuter la tâche de traitement.

  5. Pour Nombre d'instances, spécifiez le nombre d'instances de calcul à lancer.

  6. Pour IAMrôle, entrez le rôle d'IAMexécution de l'utilisateur. Ce rôle doit disposer des autorisations requises pour SageMaker créer et exécuter des tâches de traitement en votre nom. Ces autorisations sont accordées si la AmazonSageMakerFullAccesspolitique est associée à votre IAM rôle.

  7. Pour Taille du volume, entrez la taille de stockage en Go pour le volume de stockage ML attaché à chaque instance de traitement. Choisissez la taille en fonction de la taille attendue des données d'entrée et de sortie.

  8. (Facultatif) Pour la KMSclé de volume, spécifiez une KMS clé pour chiffrer le volume de stockage. Si vous ne spécifiez pas de clé, la clé de EBS chiffrement Amazon par défaut est utilisée.

  9. (Facultatif) Pour la KMSclé, spécifiez une KMS clé pour chiffrer les sources de données Amazon S3 en entrée et en sortie utilisées par la tâche de traitement.

  10. (Facultatif) Pour configurer la mémoire Spark, procédez comme suit :

    1. Entrez la mémoire du pilote en Mo pour le nœud du pilote Spark qui gère la coordination et la planification des tâches.

    2. Entrez la mémoire de l'exécuteur en Mo pour les nœuds de l'exécuteur Spark qui exécutent les tâches individuelles de la tâche.

  11. (Facultatif) Pour la configuration réseau, procédez comme suit :

    1. Pour la configuration des sous-réseaux, entrez IDs les VPC sous-réseaux dans lesquels les instances de traitement seront lancées. Par défaut, la tâche utilise les paramètres que vous avez définis par défautVPC.

    2. Pour la configuration des groupes de sécurité, entrez les groupes IDs de sécurité pour contrôler les règles de connectivité entrantes et sortantes.

    3. Activez l'option Activer le chiffrement du trafic inter-conteneurs pour crypter les communications réseau entre les conteneurs de traitement pendant le travail.

  12. (Facultatif) Pour les plannings associés, vous pouvez choisir de créer un EventBridge planning Amazon pour que la tâche de traitement soit exécutée à intervalles récurrents. Choisissez Créer un nouveau calendrier et remplissez la boîte de dialogue. Pour plus d'informations sur le remplissage de cette section et l'exécution des tâches de traitement selon un calendrier, consultezCréez un calendrier pour traiter automatiquement les nouvelles données.

  13. (Facultatif) Ajoutez des balises sous forme de paires clé-valeur afin de pouvoir classer et rechercher des tâches de traitement.

  14. Choisissez Exporter pour démarrer le traitement.

Après avoir exporté vos données, vous devriez trouver le jeu de données entièrement traité à l'emplacement Amazon S3 spécifié.