Exporter les données

Mode de mise au point

Exporter les données - Amazon SageMaker AI

Exporter vers un jeu de données Canvas Exporter vers Amazon S3

Exportez les données pour appliquer les transformations de votre flux de données à l'ensemble de données importé dans son intégralité. Vous pouvez exporter n'importe quel nœud de votre flux de données vers les emplacements suivants :

SageMaker Ensemble de données Canvas
Amazon S3

Si vous souhaitez entraîner des modèles dans Canvas, vous pouvez exporter votre jeu de données complet transformé en tant que jeu de données Canvas. Si vous souhaitez utiliser vos données transformées dans des flux de travail d'apprentissage automatique externes à SageMaker Canvas, vous pouvez exporter votre ensemble de données vers Amazon S3.

Exporter vers un jeu de données Canvas

Utilisez la procédure suivante pour exporter un jeu de données SageMaker Canvas depuis un nœud de votre flux de données.

Pour exporter un nœud de votre flux en tant que jeu de données SageMaker Canvas

Accédez à votre flux de données.
Cliquez sur l'icône représentant des points de suspension à côté du nœud que vous exportez.
Dans le menu contextuel, survolez Exporter, puis sélectionnez Exporter les données vers le jeu de données Canvas.
Dans le panneau latéral Exporter vers le jeu de données Canvas, entrez le nom du nouveau jeu de données.
Laissez l'option Traiter l'ensemble de données sélectionnée si vous souhaitez que SageMaker Canvas traite et enregistre l'ensemble de données complet. Désactivez cette option pour appliquer les transformations uniquement aux exemples de données avec lesquels vous travaillez dans votre flux de données.
Cliquez sur Exporter.

Vous devriez maintenant pouvoir accéder à la page Ensembles de données de l'application Canvas et voir votre nouveau jeu de données.

Exporter vers Amazon S3

Lorsque vous exportez vos données vers Amazon S3, vous pouvez les adapter pour transformer et traiter des données de toute taille. Canvas traite automatiquement vos données localement si la mémoire de l'application peut gérer la taille de votre ensemble de données. Si la taille de votre jeu de données dépasse la capacité de mémoire locale de 5 Go, Canvas lance une tâche à distance en votre nom afin de fournir des ressources de calcul supplémentaires et de traiter les données plus rapidement. Par défaut, Canvas utilise Amazon EMR Serverless pour exécuter ces tâches à distance. Cependant, vous pouvez configurer manuellement Canvas pour utiliser soit une tâche EMR sans serveur, soit une tâche de SageMaker traitement avec vos propres paramètres.

Note

Lors de l'exécution d'une tâche EMR sans serveur, la tâche hérite par défaut du rôle IAM, des paramètres clés KMS et des balises de votre application Canvas.

Voici un résumé des options pour les tâches à distance dans Canvas :

EMR Serverless : il s'agit de l'option par défaut utilisée par Canvas pour les tâches à distance. EMR Serverless provisionne et adapte automatiquement les ressources informatiques pour traiter vos données afin que vous n'ayez pas à vous soucier de choisir les ressources informatiques adaptées à votre charge de travail. Pour plus d'informations sur EMR Serverless, consultez le Guide de l'utilisateur EMR Serverless.
SageMaker Traitement : les tâches de SageMaker traitement offrent des options plus avancées et un contrôle précis des ressources informatiques utilisées pour traiter vos données. Par exemple, vous pouvez spécifier le type et le nombre d'instances de calcul, configurer la tâche dans votre propre VPC et contrôler l'accès au réseau, automatiser les tâches de traitement, etc. Pour plus d'informations sur l'automatisation des tâches de traitement, voirCréez un calendrier pour traiter automatiquement les nouvelles données. Pour des informations plus générales sur les tâches de SageMaker traitement, consultezCharges de travail de transformation des données avec Processing SageMaker .

Les types de fichiers suivants sont pris en charge lors de l'exportation vers Amazon S3 :

CSV
Parquet

Pour commencer, consultez les conditions préalables suivantes.

Conditions requises pour les tâches EMR sans serveur

Pour créer une tâche distante utilisant les ressources EMR Serverless, vous devez disposer des autorisations nécessaires. Vous pouvez accorder des autorisations via le domaine Amazon SageMaker AI ou les paramètres du profil utilisateur, ou vous pouvez configurer manuellement le rôle AWS IAM de votre utilisateur. Pour obtenir des instructions sur la façon d'accorder aux utilisateurs les autorisations nécessaires au traitement de données volumineuses, consultezAutoriser les utilisateurs à utiliser des données volumineuses tout au long du cycle de vie du machine learning.

Si vous ne souhaitez pas configurer ces politiques mais que vous devez tout de même traiter des ensembles de données volumineux via Data Wrangler, vous pouvez également utiliser une SageMaker tâche de traitement.

Utilisez les procédures suivantes pour exporter vos données vers Amazon S3. Pour configurer une tâche à distance, suivez les étapes avancées facultatives.

Pour exporter un nœud de votre flux vers Amazon S3

Accédez à votre flux de données.
Cliquez sur l'icône représentant des points de suspension à côté du nœud que vous exportez.
Dans le menu contextuel, passez le curseur sur Exporter, puis sélectionnez Exporter les données vers Amazon S3.
Dans le panneau latéral Exporter vers Amazon S3, vous pouvez modifier le nom du jeu de données pour le nouveau jeu de données.
Pour l'emplacement S3, entrez l'emplacement Amazon S3 vers lequel vous souhaitez exporter l'ensemble de données. Vous pouvez entrer l'URI, l'alias ou l'ARN S3 de l'emplacement S3 ou du point d'accès S3. Pour plus d'informations sur les points d'accès, consultez la section Gestion de l'accès aux données avec les points d'accès Amazon S3 dans le guide de l'utilisateur Amazon S3.
(Facultatif) Pour les paramètres avancés, spécifiez les valeurs des champs suivants :
1. Type de fichier : format de fichier des données exportées.
2. Délimiteur : délimiteur utilisé pour séparer les valeurs du fichier.
3. Compression : méthode de compression utilisée pour réduire la taille du fichier.
4. Nombre de partitions : nombre de fichiers d'ensemble de données que Canvas écrit en sortie de la tâche.
5. Choisir des colonnes — Vous pouvez choisir un sous-ensemble de colonnes parmi les données à inclure dans les partitions.
Laissez l'option Traiter l'ensemble de données sélectionnée si vous souhaitez que Canvas applique vos transformations de flux de données à l'ensemble de votre ensemble de données et exporte le résultat. Si vous désélectionnez cette option, Canvas applique les transformations uniquement à l'échantillon de votre jeu de données utilisé dans le flux de données interactif Data Wrangler.

Note
Si vous n'exportez qu'un échantillon de vos données, Canvas traite vos données dans l'application et ne crée pas de travail à distance pour vous.
Laissez l'option Configuration automatique des tâches sélectionnée si vous souhaitez que Canvas détermine automatiquement s'il faut exécuter la tâche en utilisant la mémoire de l'application Canvas ou une tâche EMR sans serveur. Si vous désélectionnez cette option et configurez manuellement votre tâche, vous pouvez choisir d'utiliser une tâche EMR sans serveur ou SageMaker une tâche de traitement. Pour obtenir des instructions sur la configuration d'une tâche EMR sans serveur ou de SageMaker traitement, consultez la section qui suit cette procédure avant d'exporter vos données.
Cliquez sur Exporter.

Les procédures suivantes montrent comment configurer manuellement les paramètres des tâches à distance pour EMR Serverless ou SageMaker Processing lors de l'exportation de votre ensemble de données complet vers Amazon S3.

EMR Serverless

Pour configurer une tâche EMR sans serveur lors de l'exportation vers Amazon S3, procédez comme suit :

Dans le panneau latéral Exporter vers Amazon S3, désactivez l'option de configuration automatique des tâches.
Sélectionnez EMR Serverless.
Dans Nom de la tâche, entrez le nom de votre tâche EMR sans serveur. Le nom peut contenir des lettres, des chiffres, des traits d'union et des traits de soulignement.
Pour le rôle IAM, entrez le rôle d'exécution IAM de l'utilisateur. Ce rôle doit disposer des autorisations requises pour exécuter des applications EMR sans serveur. Pour de plus amples informations, veuillez consulter Autoriser les utilisateurs à utiliser des données volumineuses tout au long du cycle de vie du machine learning.
(Facultatif) Pour la clé KMS, spécifiez l'ID de clé ou l'ARN d'un AWS KMS key pour chiffrer les journaux des tâches. Si vous n'entrez pas de clé, Canvas utilise une clé par défaut pour EMR Serverless.
(Facultatif) Pour la configuration de la surveillance, entrez le nom du groupe de CloudWatch journaux Amazon Logs dans lequel vous souhaitez publier vos journaux.
(Facultatif) Pour les balises, ajoutez des balises de métadonnées à la tâche EMR Serverless composées de paires clé-valeur. Ces balises peuvent être utilisées pour classer et rechercher des offres d'emploi.
Choisissez Export pour démarrer la tâche.

SageMaker Processing

Pour configurer une tâche SageMaker de traitement lors de l'exportation vers Amazon S3, procédez comme suit :

Dans le panneau latéral Exporter vers Amazon S3, désactivez l'option de configuration automatique des tâches.
Sélectionnez SageMaker Traitement.
Dans Nom de la tâche, entrez le nom de votre tâche de traitement SageMaker AI.
Dans Type d'instance, sélectionnez le type d'instance de calcul pour exécuter la tâche de traitement.
Pour Nombre d'instances, spécifiez le nombre d'instances de calcul à lancer.
Pour le rôle IAM, entrez le rôle d'exécution IAM de l'utilisateur. Ce rôle doit disposer des autorisations requises pour que l' SageMaker IA puisse créer et exécuter des tâches de traitement en votre nom. Ces autorisations sont accordées si la AmazonSageMakerFullAccesspolitique est attachée à votre rôle IAM.
Pour Taille du volume, entrez la taille de stockage en Go pour le volume de stockage ML attaché à chaque instance de traitement. Choisissez la taille en fonction de la taille attendue des données d'entrée et de sortie.
(Facultatif) Pour la clé KMS du volume, spécifiez une clé KMS pour chiffrer le volume de stockage. Si vous ne spécifiez aucune clé, la clé de chiffrement Amazon EBS par défaut est utilisée.
(Facultatif) Pour la clé KMS, spécifiez une clé KMS pour chiffrer les sources de données Amazon S3 en entrée et en sortie utilisées par la tâche de traitement.
(Facultatif) Pour configurer la mémoire Spark, procédez comme suit :
1. Entrez la mémoire du pilote en Mo pour le nœud du pilote Spark qui gère la coordination et la planification des tâches.
2. Entrez la mémoire de l'exécuteur en Mo pour les nœuds de l'exécuteur Spark qui exécutent les tâches individuelles de la tâche.
(Facultatif) Pour la configuration réseau, procédez comme suit :
1. Pour la configuration des sous-réseaux, entrez IDs les sous-réseaux VPC dans lesquels les instances de traitement seront lancées. Par défaut, la tâche utilise les paramètres de votre VPC par défaut.
2. Pour la configuration des groupes de sécurité, entrez les groupes IDs de sécurité pour contrôler les règles de connectivité entrantes et sortantes.
3. Activez l'option Activer le chiffrement du trafic inter-conteneurs pour crypter les communications réseau entre les conteneurs de traitement pendant le travail.
(Facultatif) Pour les plannings associés, vous pouvez choisir de créer un EventBridge planning Amazon pour que la tâche de traitement soit exécutée à intervalles récurrents. Choisissez Créer un nouveau calendrier et remplissez la boîte de dialogue. Pour plus d'informations sur le remplissage de cette section et l'exécution des tâches de traitement selon un calendrier, consultezCréez un calendrier pour traiter automatiquement les nouvelles données.
(Facultatif) Ajoutez des balises sous forme de paires clé-valeur afin de pouvoir classer et rechercher des tâches de traitement.
Choisissez Exporter pour démarrer le traitement.

anchor anchor

Pour configurer une tâche EMR sans serveur lors de l'exportation vers Amazon S3, procédez comme suit :

Dans le panneau latéral Exporter vers Amazon S3, désactivez l'option de configuration automatique des tâches.
Sélectionnez EMR Serverless.
Dans Nom de la tâche, entrez le nom de votre tâche EMR sans serveur. Le nom peut contenir des lettres, des chiffres, des traits d'union et des traits de soulignement.
Pour le rôle IAM, entrez le rôle d'exécution IAM de l'utilisateur. Ce rôle doit disposer des autorisations requises pour exécuter des applications EMR sans serveur. Pour de plus amples informations, veuillez consulter Autoriser les utilisateurs à utiliser des données volumineuses tout au long du cycle de vie du machine learning.
(Facultatif) Pour la clé KMS, spécifiez l'ID de clé ou l'ARN d'un AWS KMS key pour chiffrer les journaux des tâches. Si vous n'entrez pas de clé, Canvas utilise une clé par défaut pour EMR Serverless.
(Facultatif) Pour la configuration de la surveillance, entrez le nom du groupe de CloudWatch journaux Amazon Logs dans lequel vous souhaitez publier vos journaux.
(Facultatif) Pour les balises, ajoutez des balises de métadonnées à la tâche EMR Serverless composées de paires clé-valeur. Ces balises peuvent être utilisées pour classer et rechercher des offres d'emploi.
Choisissez Export pour démarrer la tâche.

Après avoir exporté vos données, vous devriez trouver le jeu de données entièrement traité à l'emplacement Amazon S3 spécifié.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Exporter pour créer un modèle

Exporter un flux de données

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Exporter les données

Exporter vers un jeu de données Canvas

Pour exporter un nœud de votre flux en tant que jeu de données SageMaker Canvas

Exporter vers Amazon S3

Note

Conditions requises pour les tâches EMR sans serveur

Pour exporter un nœud de votre flux vers Amazon S3

Note

Sur cette page

Related resources

Cette page vous a-t-elle été utile ?

Related resources

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?