Importer - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Importer

Vous pouvez utiliser Amazon SageMaker Data Wrangler pour importer des données à partir des sources de données suivantes : Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift et Snowflake. Le jeu de données que vous importez peut contenir jusqu'à 1 000 colonnes.

Certaines sources de données vous permettent d'ajouter plusieurs connexions de données :

  • Vous pouvez vous connecter à plusieurs clusters Amazon Redshift. Chaque cluster devient une source de données.

  • Vous pouvez interroger n'importe quelle base de données Athena de votre compte pour importer des données à partir de cette base de données.

Lorsque vous importez un jeu de données à partir d'une source de données, il apparaît dans votre flux de données. Data Wrangler déduit automatiquement le type de données de chaque colonne de votre jeu de données. Pour modifier ces types, sélectionnez l'étape Data types (Types de données) et sélectionnez Edit data types (Modifier les types de données).

Lorsque vous importez des données depuis Athena ou Amazon Redshift, les données importées sont automatiquement stockées dans le compartiment S3 SageMaker par défaut de AWS la région dans laquelle vous utilisez Studio Classic. En outre, Athena stocke les données que vous prévisualisez dans Data Wrangler dans ce compartiment. Pour en savoir plus, consultez Stockage des données importées.

Important

Le compartiment Amazon S3 par défaut ne possède peut-être pas les paramètres de sécurité les moins permissifs, tels que la politique de compartiment et le chiffrement côté serveur (). SSE Nous vous recommandons vivement d'ajouter une politique de compartiment pour restreindre l'accès aux jeux de données importés dans Data Wrangler.

Important

En outre, si vous utilisez la politique gérée pour SageMaker, nous vous recommandons vivement de la limiter à la politique la plus restrictive qui vous permet de réaliser votre cas d'utilisation. Pour de plus amples informations, veuillez consulter Accorder à un IAM rôle l'autorisation d'utiliser Data Wrangler.

Toutes les sources de données, à l'exception d'Amazon Simple Storage Service (Amazon S3), nécessitent que vous spécifiiez SQL une requête pour importer vos données. Pour chaque requête, vous devez spécifier les informations suivantes :

  • Data catalog (Catalogue de données)

  • Database (Base de données)

  • Tableau 

Vous pouvez spécifier le nom de la base de données ou du catalogue de données dans les menus déroulants ou dans la requête. Voici quelques exemples de requêtes :

  • select * from example-data-catalog-name.example-database-name.example-table-name - Pour son exécution, la requête n'utilise aucun élément spécifié dans les menus déroulants de l'interface utilisateur (UI). Elle interroge example-table-name dans example-database-name dans example-data-catalog-name.

  • select * from example-database-name.example-table-name - La requête utilise le catalogue de données que vous avez spécifié dans le menu déroulant Data catalog (Catalogue de données) pour s'exécuter. Elle interroge example-table-name dans example-database-name dans le catalogue de données que vous avez spécifié.

  • select * from example-table-name - La requête vous oblige à sélectionner des champs pour les menus déroulants Data catalog (Catalogue de données) et Database name (Nom de la base de données). Elle interroge example-table-name dans le catalogue de données que vous avez spécifié.

La liaison entre Data Wrangler et la source de données est une connexion. Elle vous permet d'importer des données à partir de votre source de données.

Il existe les types de connexions suivants :

  • Direct (Directe)

  • Cataloged (Cataloguée)

Data Wrangler a toujours accès aux données les plus récentes via une connexion directe. Si les données de la source de données ont été mises à jour, vous pouvez utiliser la connexion pour importer les données. Par exemple, si quelqu'un ajoute un fichier à l'un de vos compartiments Amazon S3, vous pouvez importer le fichier.

Une connexion cataloguée est le résultat d'un transfert de données. Les données de la connexion cataloguée ne contiennent pas nécessairement les données les plus récentes. Par exemple, vous pouvez configurer un transfert de données entre Salesforce et Amazon S3. Si les données Salesforce sont mises à jour, vous devez les transférer à nouveau. Vous pouvez automatiser le processus de transfert des données. Pour plus d'informations sur les rôles d'utilisateur, veuillez consulter Importer des données à partir de plateformes de logiciel en tant que service (SaaS).

Importer des données depuis Amazon S3

Vous pouvez utiliser Amazon Simple Storage Service (Amazon S3) pour stocker et récupérer n'importe quelle quantité de données, à tout moment, de n'importe où sur le Web. Vous pouvez accomplir ces tâches à l' AWS Management Console aide de l'interface Web simple et intuitive et de l'Amazon S3API. Si vous avez stocké votre jeu de données localement, nous vous recommandons de l'ajouter à un compartiment S3 pour l'importer dans Data Wrangler. Pour savoir comment procéder, consultez la rubrique Chargement d'un objet dans un compartiment dans le Guide de l'utilisateur Amazon Simple Storage Service.

Data Wrangler utilise S3 Select pour vous permettre de prévisualiser vos fichiers Amazon S3 dans Data Wrangler. Vous engagez des frais standard pour chaque aperçu de fichier. Pour en savoir plus sur la tarification, veuillez consulter l'onglet Demandes et sorties de données de la Tarification Amazon S3.

Important

Si vous envisagez d'exporter un flux de données et de lancer une tâche Data Wrangler, d'ingérer des données dans un SageMaker feature store ou de créer un SageMaker pipeline, sachez que ces intégrations nécessitent que les données d'entrée Amazon S3 soient situées dans la même région. AWS

Important

Si vous importez un CSV fichier, assurez-vous qu'il répond aux exigences suivantes :

  • Tout registre dans votre jeu de données ne peut pas dépasser une ligne.

  • La barre oblique inverse (\) est le seul caractère d'échappement valide.

  • Votre jeu de données doit utiliser l'un des délimiteurs suivants :

    • Virgule – ,

    • Deux-points – :

    • Point-virgule – ;

    • Barre verticale – |

    • Tab – [TAB]

Pour économiser de l'espace, vous pouvez importer des CSV fichiers compressés.

Data Wrangler vous permet d'importer l'intégralité du jeu de données ou d'en échantillonner une partie. Pour Amazon S3, il fournit les options d'échantillonnage suivantes :

  • None (Aucun) : importez l'intégralité du jeu de données.

  • First K (K premières lignes) : échantillonnez les K premières lignes du jeu de données, où K est un entier que vous spécifiez.

  • Randomized (Aléatoire) : prélève un échantillon aléatoire d'une taille que vous spécifiez.

  • Stratified (Stratifié) : prélève un échantillon aléatoire stratifié. Un échantillon stratifié conserve le rapport des valeurs dans une colonne.

Une fois que vous avez importé vos données, vous pouvez également utiliser le transformateur d'échantillonnage pour prélever un ou plusieurs échantillons de votre jeu de données. Pour plus d'informations sur le transformateur d'échantillonnage, consultez Echantillonnage.

Vous pouvez utiliser l'un des identificateurs de ressources suivants pour importer vos données :

  • Un Amazon S3 URI qui utilise un compartiment Amazon S3 ou un point d'accès Amazon S3

  • Un alias de points d'accès Amazon S3

  • Un nom de ressource Amazon (ARN) qui utilise un point d'accès Amazon S3 ou un compartiment Amazon S3

Les points d'accès Amazon S3 sont appelés points de terminaison réseau attachés aux compartiments. Chaque point d'accès dispose d'autorisations et de contrôles réseau que vous pouvez configurer. Pour plus d'informations sur les points d'accès, consultez Gestion de l'accès aux données avec les points d'accès Amazon S3.

Important

Si vous utilisez un nom de ressource Amazon (ARN) pour importer vos données, il doit s'agir d'une ressource située dans le même nom Région AWS que celui que vous utilisez pour accéder à Amazon SageMaker Studio Classic.

Vous pouvez importer un seul fichier ou plusieurs fichiers en tant que jeu de données. Vous pouvez utiliser l'opération d'importation de plusieurs fichiers lorsque vous disposez d'un jeu de données partitionné dans des fichiers distincts. Elle prend tous les fichiers d'un répertoire Amazon S3 et les importe en tant que jeu de données unique. Pour plus d'informations sur les types de fichiers que vous pouvez importer et sur la façon de les importer, reportez-vous aux sections suivantes.

Single File Import

Vous pouvez importer des fichiers uniques dans les formats suivants :

  • Valeurs séparées par des virgules () CSV

  • Parquet

  • Notation d'objets Javascript (JSON)

  • Colonne de lignes optimisée () ORC

  • Image : Data Wrangler utilise OpenCV pour importer des images. Pour plus d'informations sur les formats d'image pris en charge, consultez Lecture et écriture de fichiers image.

Pour les fichiers formatés au formatJSON, Data Wrangler prend en charge à la fois les JSON lignes (.jsonl) et les documents (.json). JSON Lorsque vous prévisualisez vos données, elles sont automatiquement affichées JSON sous forme de tableau. Pour les JSON documents imbriqués de plus de 5 Mo, Data Wrangler affiche le schéma de la structure et des tableaux sous forme de valeurs dans le jeu de données. Utilisez les opérateurs Flatten structured (Aplatir structuré) et Explode array (Éclater le tableau) pour afficher les valeurs imbriquées sous forme de tableau. Pour plus d’informations, consultez Unnest Data JSON et Éclatement du tableau.

Lorsque vous choisissez un jeu de données, vous pouvez le renommer, spécifier le type de fichier et identifier la première ligne comme en-tête.

Vous pouvez importer un jeu de données que vous avez partitionné en plusieurs fichiers dans un compartiment Amazon S3 en une seule étape d'importation.

Pour importer un jeu de données dans Data Wrangler à partir d'un fichier unique que vous avez stocké dans Amazon S3 :
  1. Si vous n'êtes pas sur l'onglet Import (Importer), choisissez Import (Importer).

  2. Sous Disponible, choisissez Amazon S3.

  3. Dans Importer des données tabulaires, d'images ou de séries temporelles depuis S3, effectuez l'une des opérations suivantes :

    • Choisissez un compartiment Amazon S3 dans la vue tabulaire et accédez au fichier que vous importez.

    • Pour la source S3, spécifiez un compartiment Amazon S3 ou un Amazon S3 URI et sélectionnez Go. L'Amazon S3 URIs peut être dans l'un des formats suivants :

      • s3://amzn-s3-demo-bucket/example-prefix/example-file

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/ensembles de données/example-file

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix/example-file

  4. Choisissez le jeu de données pour ouvrir le volet Paramètres d'importation.

  5. Si votre CSV fichier possède un en-tête, cochez la case à côté de Ajouter un en-tête au tableau.

  6. Utilisez la table Preview (Aperçu) pour visualiser votre jeu de données. Cette table affiche jusqu'à 100 lignes.

  7. Dans le volet Details (Détails), vérifiez ou modifiez les paramètres Name (Nom) et File Type (Type de fichier) de votre jeu de données. Si vous ajoutez un Name (Nom) qui contient des espaces, ces derniers sont remplacés par des traits de soulignement lorsque votre jeu de données est importé.

  8. Spécifiez la configuration d'échantillonnage que vous souhaitez utiliser.

  9. Choisissez Import (Importer).

Multifile Import

Les exigences suivantes sont requises pour importer plusieurs fichiers :

  • Les fichiers doivent se trouver dans la même dossier de votre compartiment Amazon S3.

  • Les fichiers doivent soit partager le même en-tête, soit ne pas avoir d'en-tête.

Chaque fichier doit être dans l'un des formats suivants :

  • CSV

  • Parquet

  • Colonne de lignes optimisée () ORC

  • Image : Data Wrangler utilise OpenCV pour importer des images. Pour plus d'informations sur les formats d'image pris en charge, consultez Lecture et écriture de fichiers image.

Utilisez la procédure suivante pour importer plusieurs fichiers.

Pour importer un jeu de données dans Data Wrangler à partir de plusieurs fichiers que vous avez stockés dans un répertoire Amazon S3
  1. Si vous n'êtes pas sur l'onglet Import (Importer), choisissez Import (Importer).

  2. Sous Disponible, choisissez Amazon S3.

  3. Dans Importer des données tabulaires, d'images ou de séries temporelles depuis S3, effectuez l'une des opérations suivantes :

    • Choisissez un compartiment Amazon S3 dans la vue tabulaire et accédez au dossier contenant les fichiers que vous importez.

    • Pour la source S3, spécifiez le compartiment Amazon S3 ou un Amazon S3 URI contenant vos fichiers et sélectionnez Go. Les éléments suivants sont valides URIs :

      • s3://amzn-s3-demo-bucket/example-prefix/example-prefix

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/example-prefix/

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix

  4. Sélectionnez le dossier contenant les fichiers que vous souhaitez importer. Chaque fichier doit être dans l'un des formats pris en charge. Vos fichiers doivent être du même type de données.

  5. Si votre dossier contient des CSV fichiers avec des en-têtes, cochez la case à côté de La première ligne est un en-tête.

  6. Si vos fichiers sont imbriqués dans d'autres dossiers, cochez la case à côté de Include nested directories (Inclure des répertoires imbriqués).

  7. (Facultatif) Vous pouvez également sélectionner Add filename column (Ajouter une colonne de nom de fichier) pour ajouter une colonne au jeu de données qui affiche le nom de fichier de chaque observation.

  8. (Facultatif) Par défaut, Data Wrangler ne vous affiche pas d'aperçu d'un dossier. Vous pouvez activer l'aperçu en sélectionnant le bouton bleu Aperçu désactivé. Un aperçu affiche les 10 premières lignes des 10 premiers fichiers du dossier.

  9. Dans le volet Details (Détails), vérifiez ou modifiez les paramètres Name (Nom) et File Type (Type de fichier) de votre jeu de données. Si vous ajoutez un Name (Nom) qui contient des espaces, ces derniers sont remplacés par des traits de soulignement lorsque votre jeu de données est importé.

  10. Spécifiez la configuration d'échantillonnage que vous souhaitez utiliser.

  11. Cliquez sur Import dataset (Importer le jeu de données).

Vous pouvez également utiliser des paramètres pour importer un sous-ensemble de fichiers correspondant à un modèle. Les paramètres vous permettent de sélectionner de manière plus sélective les fichiers à importer. Pour commencer à utiliser des paramètres, modifiez la source de données et appliquez-les au chemin que vous utilisez pour importer les données. Pour de plus amples informations, veuillez consulter Réutilisation de flux de données pour différents jeux de données.

Importer des données depuis Athena

Utilisez Amazon Athena pour importer vos données depuis Amazon Simple Storage Service (Amazon S3) dans Data Wrangler. Dans Athena, vous rédigez des SQL requêtes standard pour sélectionner les données que vous importez depuis Amazon S3. Pour plus d'informations, consultez Qu'est-ce que Amazon Athena ?.

Vous pouvez utiliser le AWS Management Console pour configurer Amazon Athena. Vous devez créer au moins une base de données dans Athena avant de commencer à exécuter des requêtes. Pour plus d'informations sur la mise en route avec Athena, consultez Démarrer.

Athena est directement intégré à Data Wrangler. Vous pouvez écrire des requêtes Athena sans avoir à quitter l'interface utilisateur de Data Wrangler.

En plus d'écrire des requêtes Athena simples dans Data Wrangler, vous pouvez également utiliser :

Interroger Athena dans Data Wrangler

Note

Data Wrangler ne prend pas en charge les requêtes fédérées.

Si vous l'utilisez AWS Lake Formation avec Athena, assurez-vous que vos autorisations de Lake Formation ne remplacent pas IAM les autorisations de la base de IAM données. sagemaker_data_wrangler

Data Wrangler vous permet d'importer l'intégralité du jeu de données ou d'en échantillonner une partie. Pour Athena, il fournit les options d'échantillonnage suivantes :

  • None (Aucun) : importez l'intégralité du jeu de données.

  • First K (K premières lignes) : échantillonnez les K premières lignes du jeu de données, où K est un entier que vous spécifiez.

  • Randomized (Aléatoire) : prélève un échantillon aléatoire d'une taille que vous spécifiez.

  • Stratified (Stratifié) : prélève un échantillon aléatoire stratifié. Un échantillon stratifié conserve le rapport des valeurs dans une colonne.

La procédure suivante montre comment importer un jeu de données d'Athena dans Data Wrangler.

Pour importer un jeu de données dans Data Wrangler à partir d'Athena
  1. Connectez-vous à Amazon SageMaker Console.

  2. Choisissez Studio.

  3. Choisissez Launch app (Lancer l'application).

  4. Dans la liste déroulante, sélectionnez Studio.

  5. Choisissez l'icône d'accueil.

  6. Choisissez Data (Données).

  7. Choisissez Data Wrangler.

  8. Choisissez Import data (Importer les données).

  9. Sous Available (Disponible), sélectionnez Amazon Athena.

  10. Pour Catalogue de données, choisissez un catalogue de données.

  11. Utilisez la liste déroulante Database (Base de données) pour sélectionner la base de données que vous souhaitez interroger. Lorsque vous sélectionnez une base de données, vous pouvez prévisualiser toutes les tables de votre base de données en utilisant les Tables listées sous Details (Détails).

  12. (Facultatif) Choisissez Advanced configuration (Configuration avancée).

    1. Choisissez un Workgroup (Groupe de travail).

    2. Si votre groupe de travail n'a pas appliqué l'emplacement de sortie Amazon S3 ou si vous n'avez pas utilisé un groupe de travail, spécifiez une valeur pour Emplacement Amazon S3 des résultats des requêtes.

    3. (Facultatif) Pour la zone Data retention period (Durée de conservation des données), cochez la case permettant de définir une durée de conservation des données et spécifiez le nombre de jours pendant lesquels les données doivent être stockées avant leur suppression.

    4. (Facultatif) Par défaut, Data Wrangler enregistre la connexion. Vous pouvez choisir de désélectionner la case à cocher et de ne pas enregistrer la connexion.

  13. Pour Sampling (Échantillonnage), choisissez une méthode d'échantillonnage. Choisissez None (Aucun) pour désactiver l'échantillonnage.

  14. Saisissez votre requête dans l'éditeur de requête et utilisez le bouton Run (Exécuter) pour l'exécuter. Après une requête réussie, vous pouvez prévisualiser votre résultat sous l'éditeur.

    Note

    Les données Salesforce utilisent le type timestamptz. Si vous interrogez la colonne d'horodatage que vous avez importée dans Athena depuis Salesforce, convertissez les données de la colonne au type timestamp. La requête suivante convertit la colonne d'horodatage au type approprié.

    # cast column timestamptz_col as timestamp type, and name it as timestamp_col select cast(timestamptz_col as timestamp) as timestamp_col from table
  15. Pour importer les résultats de votre requête, sélectionnez Import (Importer).

Une fois que vous avez terminé la procédure précédente, le jeu de données que vous avez interrogé et importé apparaît dans le flux Data Wrangler.

Par défaut, Data Wrangler enregistre les paramètres de connexion en tant que nouvelle connexion. Lorsque vous importez vos données, la requête que vous avez déjà spécifiée apparaît sous la forme d'une nouvelle connexion. Les connexions enregistrées stockent des informations sur les groupes de travail Athena et les compartiments Amazon S3 que vous utilisez. Lorsque vous vous reconnectez à la source de données, vous pouvez choisir la connexion enregistrée.

Gestion des résultats de requêtes

Data Wrangler prend en charge l'utilisation de groupes de travail Athena pour gérer les résultats de requête dans un compte AWS . Vous pouvez spécifier un emplacement de sortie Amazon S3 pour chaque groupe de travail. Vous pouvez également spécifier si la sortie de la requête peut être envoyée à différents emplacements Amazon S3. Pour plus d'informations, veuillez consulter Utilisation des groupes de travail pour contrôler l'accès aux requêtes et les coûts.

Votre groupe de travail peut-être configuré pour appliquer l'emplacement de sortie des requêtes Amazon S3. Vous ne pouvez pas modifier l'emplacement de sortie des résultats de la requête pour ces groupes de travail.

Si vous n'utilisez pas de groupe de travail ou si vous ne spécifiez pas d'emplacement de sortie pour vos requêtes, Data Wrangler utilise le bucket Amazon S3 par défaut dans la même AWS région que celle dans laquelle se trouve votre instance Studio Classic pour stocker les résultats des requêtes Athena. Il crée des tables temporaires dans cette base de données pour déplacer la sortie de la requête vers ce compartiment Amazon S3. Il supprime ces tables une fois les données importées, mais la base de données sagemaker_data_wrangler persiste. Pour en savoir plus, consultez Stockage des données importées.

Pour utiliser les groupes de travail Athena, configurez la IAM politique qui donne accès aux groupes de travail. Si vous utilisez un SageMaker-Execution-Role, nous vous recommandons d'ajouter la politique au rôle. Pour plus d'informations sur IAM les politiques relatives aux groupes de travail, consultez IAMles politiques d'accès aux groupes de travail. Pour obtenir des exemples de politiques de groupe de travail, consultez Exemples de politiques de groupe de travail.

Définition de la durée de conservation des données

Data Wrangler définit automatiquement une durée de conservation des données pour les résultats de la requête. Les résultats sont supprimés une fois cette durée écoulée. Par exemple, la durée de conservation par défaut est de cinq jours. Les résultats de la requête sont supprimés au bout de cinq jours. Cette configuration est conçue pour vous aider à nettoyer les données que vous n'utilisez plus. Le nettoyage de vos données empêche les utilisateurs non autorisés d'y accéder. Il permet également de contrôler les coûts de stockage de vos données sur Amazon S3.

Si vous ne définissez pas de durée de conservation, c'est la configuration du cycle de vie d'Amazon S3 qui détermine la durée de stockage des objets. La politique de conservation des données que vous avez spécifiée pour la configuration du cycle de vie supprime tous les résultats de requête antérieurs à la configuration du cycle de vie que vous avez spécifiée. Pour en savoir plus, consultez Définition d'une configuration de cycle de vie sur un compartiment.

Data Wrangler utilise des configurations de cycle de vie Amazon S3 pour gérer la conservation et l'expiration des données. Vous devez accorder à votre rôle d'IAMexécution Amazon SageMaker Studio Classic les autorisations nécessaires pour gérer les configurations du cycle de vie des compartiments. Procédez comme suit pour accorder des autorisations.

Pour accorder les autorisations de gestion de la configuration du cycle de vie, procédez comme suit.

  1. Connectez-vous à la IAM console AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/iam/.

  2. Sélectionnez Roles (Rôles).

  3. Dans la barre de recherche, spécifiez le rôle SageMaker d'exécution Amazon utilisé par Amazon SageMaker Studio Classic.

  4. Choisissez le rôle.

  5. Choisissez Add permissions (Ajouter des autorisations).

  6. Choisissez Create inline policy (Créer une politique en ligne).

  7. Pour Service, spécifiez S3 et choisissez-le.

  8. Dans la section Lire, choisissez GetLifecycleConfiguration.

  9. Dans la section Écrire, choisissez PutLifecycleConfiguration.

  10. Pour Resources (Ressources), choisissez Specific (Spécifique).

  11. Pour Actions, sélectionnez l'icône en forme de flèche en regard de Permissions management (Gestion des autorisations).

  12. Choisissez PutResourcePolicy.

  13. Pour Resources (Ressources), choisissez Specific (Spécifique).

  14. Cochez la case en regard de Any in this account (N'importe quelle ressource dans ce compte).

  15. Choisissez Review policy (Examiner une politique).

  16. Pour Name (Nom), spécifiez un nom.

  17. Sélectionnez Create policy (Créer la stratégie).

Importer des données depuis Amazon Redshift

Amazon Redshift est un service d’entrepôt des données entièrement géré dans le cloud. La première étape pour créer un entrepôt de données consiste à lancer un ensemble de nœuds, appelé cluster Amazon Redshift. Après avoir alloué votre cluster, vous pouvez charger votre jeu de données, puis effectuer des requêtes d'analyse de données.

Vous pouvez vous connecter à un ou plusieurs clusters Amazon Redshift et les interroger dans Data Wrangler. Pour utiliser cette option d'importation, vous devez créer au moins un cluster dans Amazon Redshift. Pour savoir comment procéder, veuillez consulter Démarrer avec Amazon Redshift.

Vous pouvez afficher les résultats de votre requête Amazon Redshift dans l'un des emplacements suivants :

  • Compartiment Amazon S3 par défaut

  • Emplacement de sortie Amazon S3 que vous spécifiez

Vous pouvez importer l'intégralité du jeu de données ou en échantillonner une partie. Pour Amazon Redshift, il fournit les options d'échantillonnage suivantes :

  • None (Aucun) : importez l'intégralité du jeu de données.

  • First K (K premières lignes) : échantillonnez les K premières lignes du jeu de données, où K est un entier que vous spécifiez.

  • Randomized (Aléatoire) : prélève un échantillon aléatoire d'une taille que vous spécifiez.

  • Stratified (Stratifié) : prélève un échantillon aléatoire stratifié. Un échantillon stratifié conserve le rapport des valeurs dans une colonne.

Le compartiment Amazon S3 par défaut se trouve dans la même AWS région que celle dans laquelle se trouve votre instance Studio Classic pour stocker les résultats des requêtes Amazon Redshift. Pour de plus amples informations, veuillez consulter Stockage des données importées.

Pour le compartiment Amazon S3 par défaut ou le compartiment que vous spécifiez, vous disposez des options de chiffrement suivantes :

  • Le chiffrement AWS côté service par défaut avec une clé gérée Amazon S3 (SSE-S3)

  • Une clé AWS Key Management Service (AWS KMS) que vous spécifiez

Une AWS KMS clé est une clé de chiffrement que vous créez et gérez. Pour plus d'informations sur KMS les clés, consultez AWS Key Management Service.

Vous pouvez spécifier une AWS KMS clé en utilisant la clé ARN ou celle ARN de votre AWS compte.

Si vous utilisez la politique IAM géréeAmazonSageMakerFullAccess, pour accorder à un rôle l'autorisation d'utiliser Data Wrangler dans Studio Classic, le nom d'utilisateur de votre base de données doit comporter le préfixe. sagemaker_access

Découvrez comment ajouter un nouveau cluster à l'aide des procédures suivantes.

Note

Data Wrangler utilise les données Amazon Redshift avec des API informations d'identification temporaires. Pour en savoir plus à ce sujetAPI, reportez-vous à la section Utilisation des données Amazon Redshift API dans le guide de gestion Amazon Redshift.

Pour vous connecter à un cluster Amazon Redshift
  1. Connectez-vous à Amazon SageMaker Console.

  2. Choisissez Studio.

  3. Choisissez Launch app (Lancer l'application).

  4. Dans la liste déroulante, sélectionnez Studio.

  5. Choisissez l'icône d'accueil.

  6. Choisissez Data (Données).

  7. Choisissez Data Wrangler.

  8. Choisissez Import data (Importer les données).

  9. Sous Available (Disponible), sélectionnez Amazon Athena.

  10. Choisissez Amazon Redshift.

  11. Choisissez Informations d'identification temporaires (IAM) pour Type.

  12. Saisissez un Connection Name (Nom de la connexion). Il s'agit d'un nom utilisé par Data Wrangler pour identifier cette connexion.

  13. Saisissez le Cluster Identifier (Identifiant du cluster) pour spécifier à quel cluster vous souhaitez vous connecter. Remarque : saisissez uniquement l'identifiant de cluster et non le point de terminaison complet du cluster Amazon Redshift.

  14. Saisissez le Database Name (Nom de base de données) de la base de données à laquelle vous souhaitez vous connecter.

  15. Saisissez un Database User (Utilisateur de base de données) pour identifier l'utilisateur que vous souhaitez utiliser pour vous connecter à la base de données.

  16. Pour UNLOADIAMRôle, entrez le IAM rôle ARN que le cluster Amazon Redshift doit assumer pour déplacer et écrire des données sur Amazon S3. Pour plus d'informations sur ce rôle, consultez la section Autoriser Amazon Redshift à accéder à AWS d'autres services en votre nom dans le guide de gestion Amazon Redshift.

  17. Choisissez Se connecter.

  18. (Facultatif) Pour l'emplacement de sortie Amazon S3, spécifiez le S3 dans URI lequel stocker les résultats de la requête.

  19. (Facultatif) Pour l'ID de KMS clé, spécifiez ARN la AWS KMS clé ou l'alias. L'image suivante montre où vous pouvez trouver l'une ou l'autre clé dans la AWS Management Console.

    Emplacement de l' AWS KMS aliasARN, du nom de l'alias et de la clé ARN dans la AWS KMS console.

L'image suivante montre tous les champs de la procédure précédente.

Le panneau de connexion Add Amazon Redshift.

Une fois votre connexion établie avec succès, elle apparaît en tant que source de données sous Data Import (Importation de données). Sélectionnez cette source de données pour interroger votre base de données et importer des données.

Pour interroger et importer des données à partir d'Amazon Redshift
  1. Sélectionnez la connexion à partir de laquelle vous souhaitez effectuer une requête dans Data Source (Sources de données).

  2. Sélectionnez un Scheme (Schéma). Pour en savoir plus sur les schémas Amazon Redshift, consultez la rubrique Schémas dans le Guide du développeur de la base de données Amazon Redshift.

  3. (Facultatif) Sous Advanced configuration (Configuration avancée), spécifiez la méthode Sampling (Échantillonnage) que vous souhaitez utiliser.

  4. Entrez votre requête dans l'éditeur de requête, puis choisissez Run (Exécuter) pour exécuter la requête. Après une requête réussie, vous pouvez prévisualiser votre résultat sous l'éditeur.

  5. Sélectionnez Import dataset (Importer un jeu de données) pour importer le jeu de données interrogé.

  6. Saisissez un Dataset name (Nom de jeu de données). Si vous ajoutez un Dataset name (Nom de jeu de données) qui contient des espaces, ces derniers sont remplacés par des traits de soulignement lorsque votre jeu de données est importé.

  7. Choisissez Ajouter.

Pour modifier un jeu de données, procédez comme suit.

  1. Accédez à votre flux Data Wrangler.

  2. Cliquez sur le signe + à côté de Source - Sampled (Source - Échantillonnée).

  3. Modifiez les données que vous importez.

  4. Choisissez Apply (Appliquer)

Importer des données depuis Amazon EMR

Vous pouvez utiliser Amazon EMR comme source de données pour votre flux Amazon SageMaker Data Wrangler. Amazon EMR est une plateforme de clusters gérés que vous pouvez utiliser pour traiter et analyser de grandes quantités de données. Pour plus d'informations sur AmazonEMR, consultez Qu'est-ce qu'Amazon EMR ? . Pour importer un jeu de donnéesEMR, vous devez vous y connecter et l'interroger.

Important

Vous devez remplir les conditions préalables suivantes pour vous connecter à un EMR cluster Amazon :

Prérequis
  • Configurations réseau
    • Vous avez un Amazon VPC dans la région que vous utilisez pour lancer Amazon SageMaker Studio Classic et AmazonEMR.

    • Amazon EMR et Amazon SageMaker Studio Classic doivent tous deux être lancés dans des sous-réseaux privés. Ils peuvent se trouver dans le même sous-réseau ou dans des sous-réseaux différents.

    • Amazon SageMaker Studio Classic doit être en mode VPC -only.

      Pour plus d'informations sur la création d'unVPC, voir Créer un VPC.

      Pour plus d'informations sur la création d'unVPC, voir Connect SageMaker Studio Classic Notebooks in a VPC to External Resources.

    • Les EMR clusters Amazon que vous exécutez doivent se trouver dans le même AmazonVPC.

    • Les EMR clusters Amazon et Amazon VPC doivent se trouver dans le même AWS compte.

    • Vos EMR clusters Amazon exécutent Hive ou Presto.

      • Les clusters Hive doivent autoriser le trafic entrant en provenance des groupes de sécurité Studio Classic sur le port 10000.

      • Les clusters Presto doivent autoriser le trafic entrant en provenance des groupes de sécurité Studio Classic sur le port 8889.

        Note

        Le numéro de port est différent pour les EMR clusters Amazon utilisant IAM des rôles. Accédez à la fin de la section des conditions préalables pour plus d'informations.

  • SageMaker Studio classique
    • Amazon SageMaker Studio Classic doit exécuter Jupyter Lab version 3. Pour plus d'informations sur la mise à jour de la version de Jupyter Lab, veuillez consulter Afficher et mettre à jour la JupyterLab version d'une application depuis la console.

    • Amazon SageMaker Studio Classic possède un IAM rôle qui contrôle l'accès des utilisateurs. Le IAM rôle par défaut que vous utilisez pour exécuter Amazon SageMaker Studio Classic ne comporte aucune politique vous donnant accès aux EMR clusters Amazon. Vous devez associer la politique octroyant les autorisations au IAM rôle. Pour de plus amples informations, veuillez consulter Configurer la liste des EMR clusters Amazon.

    • Le IAM rôle doit également être associé à la politique suivantesecretsmanager:PutResourcePolicy.

    • Si vous utilisez un domaine Studio Classic que vous avez déjà créé, assurez-vous qu'il AppNetworkAccessType est en mode VPC -only. Pour plus d'informations sur la mise à jour d'un domaine afin d'utiliser le mode VPC -only, consultezArrêter et mettre à jour SageMaker Studio Classic.

  • EMRClusters Amazon
    • Hive ou Presto doit être installé sur votre cluster.

    • La EMR version d'Amazon doit être la version 5.5.0 ou ultérieure.

      Note

      Amazon EMR prend en charge la résiliation automatique. La terminaison automatique empêche le fonctionnement des clusters inactifs, ce qui permet de réaliser des économies. Les versions qui prennent en charge la terminaison automatique sont les suivantes :

      • Pour les versions 6.x, version 6.1.0 ou ultérieure.

      • Pour les versions 5.x, version 5.30.0 ou ultérieure.

  • EMRClusters Amazon utilisant des rôles IAM d'exécution

Un Amazon VPC est un réseau virtuel qui est logiquement isolé des autres réseaux du AWS cloud. Amazon SageMaker Studio Classic et votre EMR cluster Amazon n'existent qu'au sein d'AmazonVPC.

Suivez la procédure ci-dessous pour lancer Amazon SageMaker Studio Classic dans un AmazonVPC.

Pour lancer Studio Classic dans unVPC, procédez comme suit.

  1. Accédez à la SageMaker console à l'adresse https://console.aws.amazon.com/sagemaker/.

  2. Choisissez Launch SageMaker Studio Classic.

  3. Choisissez Standard setup (Configuration standard).

  4. Pour Rôle d'exécution par défaut, choisissez le IAM rôle pour configurer Studio Classic.

  5. Choisissez l'VPCendroit où vous avez lancé les EMR clusters Amazon.

  6. Dans Subnet (Sous-réseau), choisissez un sous-réseau privé.

  7. Pour Groupe (s) de sécurité, spécifiez les groupes de sécurité que vous utilisez pour contrôler entre vosVPC.

  8. Choisissez VPCuniquement.

  9. (Facultatif) AWS utilise une clé de chiffrement par défaut. Vous pouvez spécifier une clé AWS Key Management Service pour chiffrer vos données.

  10. Choisissez Suivant.

  11. Sous Studio settings (Paramètres Studio), choisissez les configurations qui vous conviennent le mieux.

  12. Choisissez Next pour ignorer les paramètres du SageMaker canevas.

  13. Choisissez Next pour ignorer les RStudio paramètres.

Si aucun EMR cluster Amazon n'est prêt, vous pouvez utiliser la procédure suivante pour en créer un. Pour plus d'informations sur AmazonEMR, consultez Qu'est-ce qu'Amazon EMR ?

Pour créer un cluster, procédez comme suit.

  1. Accédez à AWS Management Console.

  2. Dans la barre de recherche, spécifiez Amazon EMR.

  3. Choisissez Créer un cluster.

  4. Pour Cluster name (Nom du cluster), saisissez le nom de votre cluster.

  5. Dans Release (Version), sélectionnez la version du cluster.

    Note

    Amazon EMR prend en charge la résiliation automatique pour les versions suivantes :

    • Pour les versions 6.x, version 6.1.0 ou ultérieure

    • Pour les versions 5.x, version 5.30.0 ou ultérieure

    La terminaison automatique empêche le fonctionnement des clusters inactifs, ce qui permet de réaliser des économies.

  6. (Facultatif) Pour Applications, choisissez Presto.

  7. Choisissez l'application que vous exécutez sur le cluster.

  8. Sous Networking (Mise en réseau), dans Hardware configuration (Configuration matérielle), spécifiez les paramètres de configuration matérielle.

    Important

    Pour la mise en réseau, choisissez VPC celui qui exécute Amazon SageMaker Studio Classic et choisissez un sous-réseau privé.

  9. Sous Security and access (Sécurité et accès), définissez les paramètres de sécurité.

  10. Sélectionnez Create (Créer).

Pour un didacticiel sur la création d'un EMR cluster Amazon, consultez Getting started with Amazon EMR. Pour plus d'informations sur les bonnes pratiques de configuration d'un cluster, veuillez consulter Considérations et bonnes pratiques.

Note

Pour des raisons de sécurité optimales, Data Wrangler ne peut se connecter qu'à des VPCs sous-réseaux privés. Vous ne pouvez pas vous connecter au nœud principal sauf si vous l'utilisez AWS Systems Manager pour vos EMR instances Amazon. Pour plus d'informations, voir Sécurisation de l'accès aux EMR clusters à l'aide de AWS Systems Manager.

Vous pouvez actuellement utiliser les méthodes suivantes pour accéder à un EMR cluster Amazon :

  • Pas d'authentification

  • Protocole léger d'accès aux annuaires (LDAP)

  • IAM(Rôle d'exécution)

Le fait de ne pas utiliser l'authentification ou de l'utiliser LDAP peut vous obliger à créer plusieurs clusters et profils d'EC2instance Amazon. Si vous êtes administrateur, vous devrez peut-être fournir différents niveaux d'accès aux données aux groupes d'utilisateurs. Ces méthodes peuvent entraîner une surcharge administrative qui complique la gestion de vos utilisateurs.

Nous vous recommandons d'utiliser un rôle IAM d'exécution qui permet à plusieurs utilisateurs de se connecter au même EMR cluster Amazon. Un rôle d'exécution est un IAM rôle que vous pouvez attribuer à un utilisateur qui se connecte à un EMR cluster Amazon. Vous pouvez configurer le IAM rôle d'exécution pour qu'il dispose d'autorisations spécifiques à chaque groupe d'utilisateurs.

Utilisez les sections suivantes pour créer un EMR cluster Presto ou Hive Amazon avec LDAP Activé.

Presto
Important

À utiliser AWS Glue comme métastore pour les tables Presto, sélectionnez Utiliser pour les métadonnées des tables Presto pour stocker les résultats de vos EMR requêtes Amazon dans un catalogue de AWS Glue données lorsque vous lancez un cluster. EMR Le stockage des résultats de la requête dans un catalogue de AWS Glue données peut vous éviter des frais.

Pour interroger des ensembles de données volumineux sur des EMR clusters Amazon, vous devez ajouter les propriétés suivantes au fichier de configuration Presto de vos clusters Amazon EMR :

[{"classification":"presto-config","properties":{ "http-server.max-request-header-size":"5MB", "http-server.max-response-header-size":"5MB"}}]

Vous pouvez également modifier les paramètres de configuration lorsque vous lancez le EMR cluster Amazon.

Le fichier de configuration de votre EMR cluster Amazon se trouve sous le chemin suivant :/etc/presto/conf/config.properties.

Utilisez la procédure suivante pour créer un cluster Presto LDAP activé.

Pour créer un cluster, procédez comme suit.

  1. Accédez à AWS Management Console.

  2. Dans la barre de recherche, spécifiez Amazon EMR.

  3. Choisissez Créer un cluster.

  4. Pour Cluster name (Nom du cluster), saisissez le nom de votre cluster.

  5. Dans Release (Version), sélectionnez la version du cluster.

    Note

    Amazon EMR prend en charge la résiliation automatique pour les versions suivantes :

    • Pour les versions 6.x, version 6.1.0 ou ultérieure

    • Pour les versions 5.x, version 5.30.0 ou ultérieure

    La terminaison automatique empêche le fonctionnement des clusters inactifs, ce qui permet de réaliser des économies.

  6. Choisissez l'application que vous exécutez sur le cluster.

  7. Sous Networking (Mise en réseau), dans Hardware configuration (Configuration matérielle), spécifiez les paramètres de configuration matérielle.

    Important

    Pour la mise en réseau, choisissez VPC celui qui exécute Amazon SageMaker Studio Classic et choisissez un sous-réseau privé.

  8. Sous Security and access (Sécurité et accès), définissez les paramètres de sécurité.

  9. Sélectionnez Create (Créer).

Hive
Important

À utiliser AWS Glue comme métastore pour les tables Hive, sélectionnez Utiliser pour les métadonnées des tables Hive pour stocker les résultats de vos EMR requêtes Amazon dans un catalogue de AWS Glue données lorsque vous lancez un cluster. EMR Le stockage des résultats de la requête dans un catalogue de AWS Glue données peut vous éviter des frais.

Pour pouvoir interroger de grands ensembles de données sur des EMR clusters Amazon, ajoutez les propriétés suivantes au fichier de configuration Hive sur vos clusters Amazon EMR :

[{"classification":"hive-site", "properties" :{"hive.resultset.use.unique.column.names":"false"}}]

Vous pouvez également modifier les paramètres de configuration lorsque vous lancez le EMR cluster Amazon.

Le fichier de configuration de votre EMR cluster Amazon se trouve sous le chemin suivant :/etc/hive/conf/hive-site.xml. Vous pouvez spécifier la propriété suivante et redémarrer le cluster :

<property> <name>hive.resultset.use.unique.column.names</name> <value>false</value> </property>

Utilisez la procédure suivante pour créer un cluster Hive LDAP activé.

Pour créer un cluster Hive LDAP activé, procédez comme suit.

  1. Accédez à AWS Management Console.

  2. Dans la barre de recherche, spécifiez Amazon EMR.

  3. Choisissez Créer un cluster.

  4. Choisissez Accéder aux options avancées.

  5. Pour Release, sélectionnez une version Amazon EMR Release.

  6. L'option de configuration Hive est sélectionnée par défaut. Assurez-vous que l'option Hive comporte une case à cocher à côté.

  7. (Facultatif) Vous pouvez également sélectionner Presto comme option de configuration pour activer Hive et Presto sur votre cluster.

  8. (Facultatif) Sélectionnez Utiliser les métadonnées de la table Hive pour stocker les résultats de vos EMR requêtes Amazon dans un catalogue de AWS Glue données. Le stockage des résultats de la requête dans un AWS Glue catalogue peut vous éviter des frais. Pour plus d'informations, consultez la section Utilisation du catalogue de AWS Glue données comme métastore pour Hive.

    Note

    Le stockage des résultats de la requête dans un catalogue de données nécessite EMR la version 5.8.0 ou ultérieure d'Amazon.

  9. Sous Entrer la configuration, spécifiez les éléments suivants JSON :

    [ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]
    Note

    Pour des raisons de sécurité, nous vous recommandons de SSL l'activer HiveServer en ajoutant quelques propriétés dans le site de ruche précédent. JSON Pour plus d'informations, consultez la section Activer SSL sur HiveServer 2.

  10. Spécifiez les paramètres de cluster restants et créez un cluster.

Utilisez les sections suivantes pour utiliser l'LDAPauthentification pour les EMR clusters Amazon que vous avez déjà créés.

LDAP for Presto

L'utilisation LDAP sur un cluster exécutant Presto nécessite l'accès au coordinateur Presto via. HTTPS Procédez comme suit pour fournir l'accès :

  • Activez l'accès sur le port 636

  • Activer SSL pour le coordinateur Presto

Utilisez le modèle suivant pour configurer Presto :

- Classification: presto-config ConfigurationProperties: http-server.authentication.type: 'PASSWORD' http-server.https.enabled: 'true' http-server.https.port: '8889' http-server.http.port: '8899' node-scheduler.include-coordinator: 'true' http-server.https.keystore.path: '/path/to/keystore/path/for/presto' http-server.https.keystore.key: 'keystore-key-password' discovery.uri: 'http://master-node-dns-name:8899' - Classification: presto-password-authenticator ConfigurationProperties: password-authenticator.name: 'ldap' ldap.url: !Sub 'ldaps://ldap-server-dns-name:636' ldap.user-bind-pattern: "uid=${USER},dc=example,dc=org" internal-communication.authentication.ldap.user: "ldap-user-name" internal-communication.authentication.ldap.password: "ldap-password"

Pour plus d'informations sur la configuration LDAP dans Presto, consultez les ressources suivantes :

Note

Pour des raisons de sécurité, nous vous recommandons SSL d'activer Presto. Pour plus d'informations, veuillez consulter Sécuriser les communications internes.

LDAP for Hive

Pour utiliser Hive LDAP pour un cluster que vous avez créé, suivez la procédure suivante pour reconfigurer un groupe d'instances dans la console.

Vous spécifiez le nom du cluster auquel vous vous connectez.

[ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]

Utilisez la procédure suivante pour importer des données à partir d'un cluster.

Pour importer des données à partir d'un cluster, procédez comme suit.

  1. Ouvrez un flux Data Wrangler.

  2. Choisissez Create Connection (Créer une connexion).

  3. Choisissez Amazon EMR.

  4. Effectuez l’une des actions suivantes :

    • (Facultatif) Pour les secrets ARN, spécifiez le numéro de ressource Amazon (ARN) de la base de données au sein du cluster. Les secrets offrent une sécurité supplémentaire. Pour plus d'informations sur les secrets, voir Qu'est-ce que c'est AWS Secrets Manager ? Pour plus d'informations sur la création d'un secret pour votre cluster, veuillez consulter Création d'un AWS Secrets Manager secret pour votre cluster.

      Important

      Vous devez spécifier un secret si vous utilisez un rôle IAM d'exécution pour l'authentification.

    • Dans le tableau déroulant, choisissez un cluster.

  5. Choisissez Next (Suivant).

  6. Pour Sélectionnez un point de terminaison pour example-cluster-name cluster, choisissez un moteur de requête.

  7. (Facultatif) Sélectionnez Save connection (Enregistrer la connexion).

  8. Choisissez Next, select login (Ensuite, sélectionner la connexion) et choisissez l'une des options suivantes :

    • No authentication (Pas d'authentification)

    • LDAP

    • IAM

  9. Pour vous connecter example-cluster-name cluster, spécifiez le nom d'utilisateur et le mot de passe du cluster.

  10. Choisissez Se connecter.

  11. Dans l'éditeur de requêtes, spécifiez une SQL requête.

  12. Cliquez sur Exécuter.

  13. Choisissez Import (Importer).

Création d'un AWS Secrets Manager secret pour votre cluster

Si vous utilisez un rôle IAM d'exécution pour accéder à votre EMR cluster Amazon, vous devez stocker les informations d'identification que vous utilisez pour accéder à Amazon en EMR tant que secret de Secrets Manager. Vous stockez toutes les informations d'identification que vous utilisez pour accéder au cluster dans le secret.

Vous devez conserver les informations suivantes dans le secret :

  • JDBCpoint de terminaison — jdbc:hive2://

  • DNSname — Le DNS nom de votre EMR cluster Amazon. Il s'agit soit du point de terminaison du nœud primaire, soit du nom d'hôte.

  • Port : 8446

Vous pouvez également enregistrer les informations supplémentaires suivantes dans le secret :

  • IAMrole : IAM rôle que vous utilisez pour accéder au cluster. Data Wrangler utilise votre rôle SageMaker d'exécution par défaut.

  • Chemin truststore : par défaut, Data Wrangler crée un chemin truststore pour vous. Vous pouvez également utiliser votre propre chemin truststore. Pour plus d'informations sur les chemins Truststore, consultez la section Chiffrement en transit en HiveServer 2.

  • Mot de passe truststore : par défaut, Data Wrangler crée un mot de passe truststore pour vous. Vous pouvez également utiliser votre propre chemin truststore. Pour plus d'informations sur les chemins Truststore, consultez la section Chiffrement en transit en HiveServer 2.

Utilisez la procédure ci-dessous pour stocker les informations d'identification dans un secret Secrets Manager.

Pour stocker vos informations d'identification en tant que secret, procédez comme suit.

  1. Accédez à AWS Management Console.

  2. Dans la barre de recherche, spécifiez Secrets Manager.

  3. Sélectionnez AWS Secrets Manager.

  4. Choisissez Store a new secret (Stocker un nouveau secret).

  5. Pour Secret type (Type de secret), choisissez Other type of secret (Autre type de secret).

  6. Sous Paires clé/valeur, sélectionnez Texte brut.

  7. Pour les clusters exécutant Hive, vous pouvez utiliser le modèle suivant pour l'IAMauthentification.

    {"jdbcURL": "" "iam_auth": {"endpoint": "jdbc:hive2://", #required "dns": "ip-xx-x-xxx-xxx.ec2.internal", #required "port": "10000", #required "cluster_id": "j-xxxxxxxxx", #required "iam_role": "arn:aws:iam::xxxxxxxx:role/xxxxxxxxxxxx", #optional "truststore_path": "/etc/alternatives/jre/lib/security/cacerts", #optional "truststore_password": "changeit" #optional }}
    Note

    Après avoir importé vos données, vous leur appliquez des transformations. Vous exportez ensuite les données que vous avez transformées vers un emplacement spécifique. Si vous utilisez un bloc-notes Jupyter pour exporter vos données transformées vers Amazon S3, vous devez utiliser le chemin truststore spécifié dans l'exemple précédent.

Un secret Secrets Manager stocke le JDBC URL contenu du EMR cluster Amazon en tant que secret. L'utilisation d'un secret est plus sûre que la saisie directe de vos informations d'identification.

Utilisez la procédure suivante pour les enregistrer JDBC URL en tant que secret.

Pour le stocker JDBC URL en tant que secret, procédez comme suit.

  1. Accédez à AWS Management Console.

  2. Dans la barre de recherche, spécifiez Secrets Manager.

  3. Sélectionnez AWS Secrets Manager.

  4. Choisissez Store a new secret (Stocker un nouveau secret).

  5. Pour Secret type (Type de secret), choisissez Other type of secret (Autre type de secret).

  6. Pour les paires clé/valeur, spécifiez jdbcURL comme clé et validez JDBC URL comme valeur.

    Le format d'une valeur valide JDBC URL varie selon que vous utilisez l'authentification et que vous utilisez Hive ou Presto comme moteur de requête. La liste suivante indique les JBDC URL formats valides pour les différentes configurations possibles.

    • Hive, aucune authentification : jdbc:hive2://emr-cluster-master-public-dns:10000/;

    • Hive, LDAP authentification — jdbc:hive2://emr-cluster-master-public-dns-name:10000/;AuthMech=3;UID=david;PWD=welcome123;

    • Pour Hive SSL activé, le JDBC URL format dépend de l'utilisation ou non d'un fichier Java Keystore pour la TLS configuration. Le fichier Java Keystore permet de vérifier l'identité du nœud principal du EMR cluster Amazon. Pour utiliser un fichier Java Keystore, générez-le sur un EMR cluster et téléchargez-le dans Data Wrangler. Pour générer un fichier, utilisez la commande suivante sur le EMR cluster Amazon,keytool -genkey -alias hive -keyalg RSA -keysize 1024 -keystore hive.jks. Pour plus d'informations sur l'exécution de commandes sur un EMR cluster Amazon, consultez Sécurisation de l'accès aux EMR clusters à l'aide de AWS Systems Manager. Pour charger un fichier, cliquez sur la flèche vers le haut dans le menu de navigation de gauche de l'interface utilisateur de Data Wrangler.

      Les JDBC URL formats suivants sont valides pour Hive lorsque SSL cette option est activée :

      • Sans fichier keystore Java : jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;AllowSelfSignedCerts=1;

      • Avec un fichier keystore Java - jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;SSLKeyStore=/home/sagemaker-user/data/Java-keystore-file-name;SSLKeyStorePwd=Java-keystore-file-passsword;

    • Presto, aucune authentification — jdbc:presto ://emr-cluster-master-public-dns:8889/ ;

    • Pour Presto avec LDAP authentification SSL activée, le JDBC URL format dépend de l'utilisation ou non d'un fichier Java Keystore pour la TLS configuration. Le fichier Java Keystore permet de vérifier l'identité du nœud principal du EMR cluster Amazon. Pour utiliser un fichier Java Keystore, générez-le sur un EMR cluster et téléchargez-le dans Data Wrangler. Pour charger un fichier, cliquez sur la flèche vers le haut dans le menu de navigation de gauche de l'interface utilisateur de Data Wrangler. Pour plus d'informations sur la création d'un fichier Java Keystore pour Presto, voir Fichier Java Keystore pour. TLS Pour plus d'informations sur l'exécution de commandes sur un EMR cluster Amazon, consultez Sécurisation de l'accès aux EMR clusters à l'aide de AWS Systems Manager.

      • Sans fichier keystore Java : jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;UID=user-name;PWD=password;AllowSelfSignedServerCert=1;AllowHostNameCNMismatch=1;

      • Avec un fichier keystore Java - jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;SSLTrustStorePath=/home/sagemaker-user/data/Java-keystore-file-name;SSLTrustStorePwd=Java-keystore-file-passsword;UID=user-name;PWD=password;

Tout au long du processus d'importation de données depuis un EMR cluster Amazon, vous pouvez rencontrer des problèmes. Pour obtenir des informations sur la résolution de ces problèmes, veuillez consulter Résolution des problèmes liés à Amazon EMR.

Importer des données depuis Databricks () JDBC

Vous pouvez utiliser Databricks comme source de données pour votre flux Amazon SageMaker Data Wrangler. Pour importer un ensemble de données depuis Databricks, utilisez la fonctionnalité d'importation JDBC (Java Database Connectivity) pour accéder à votre base de données Databricks. Après avoir accédé à la base de données, spécifiez une SQL requête pour obtenir les données et les importer.

Nous partons du principe que vous avez un cluster Databricks en cours d'exécution et que vous y avez configuré votre JDBC pilote. Pour plus d'informations, consultez les pages suivantes de la documentation Databricks :

Data Wrangler enregistre votre contenu. JDBC URL AWS Secrets Manager Vous devez autoriser votre rôle IAM d'exécution Amazon SageMaker Studio Classic à utiliser Secrets Manager. Procédez comme suit pour accorder des autorisations.

Pour accorder des autorisations à Secrets Manager, procédez comme suit.

  1. Connectez-vous à la IAM console AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/iam/.

  2. Sélectionnez Roles (Rôles).

  3. Dans la barre de recherche, spécifiez le rôle SageMaker d'exécution Amazon utilisé par Amazon SageMaker Studio Classic.

  4. Choisissez le rôle.

  5. Choisissez Add permissions (Ajouter des autorisations).

  6. Choisissez Create inline policy (Créer une politique en ligne).

  7. Pour Service, spécifiez Secrets Manager et choisissez-le.

  8. Pour Actions, sélectionnez l'icône en forme de flèche en regard de Permissions management (Gestion des autorisations).

  9. Choisissez PutResourcePolicy.

  10. Pour Resources (Ressources), choisissez Specific (Spécifique).

  11. Cochez la case en regard de Any in this account (N'importe quelle ressource dans ce compte).

  12. Choisissez Review policy (Examiner une politique).

  13. Pour Name (Nom), spécifiez un nom.

  14. Sélectionnez Create policy (Créer la stratégie).

Vous pouvez utiliser des partitions pour importer vos données plus rapidement. Les partitions permettent à Data Wrangler de traiter les données en parallèle. Par défaut, Data Wrangler utilise 2 partitions. Dans la plupart des cas d'utilisation, 2 partitions offrent des vitesses de traitement des données quasi optimales.

Si vous choisissez de spécifier plus de 2 partitions, vous pouvez également spécifier une colonne pour partitionner les données. Le type des valeurs de la colonne doit être numérique ou date.

Nous vous recommandons d'utiliser des partitions uniquement si vous comprenez la structure des données et la manière dont elles sont traitées.

Vous pouvez importer l'intégralité du jeu de données ou en échantillonner une partie. Pour une base de données Databricks, il fournit les options d'échantillonnage suivantes :

  • None (Aucun) : importez l'intégralité du jeu de données.

  • First K (K premières lignes) : échantillonnez les K premières lignes du jeu de données, où K est un entier que vous spécifiez.

  • Randomized (Aléatoire) : prélève un échantillon aléatoire d'une taille que vous spécifiez.

  • Stratified (Stratifié) : prélève un échantillon aléatoire stratifié. Un échantillon stratifié conserve le rapport des valeurs dans une colonne.

Procédez comme suit pour importer vos données à partir d'une base de données Databricks.

Pour importer des données depuis Databricks, procédez comme suit.

  1. Connectez-vous à Amazon SageMaker Console.

  2. Choisissez Studio.

  3. Choisissez Launch app (Lancer l'application).

  4. Dans la liste déroulante, sélectionnez Studio.

  5. Dans l'onglet Import data (Importation de données) de votre flux Data Wrangler, choisissez Databricks.

  6. Spécifiez les champs suivants :

    • Dataset name (Nom du jeu de données) : nom que vous souhaitez utiliser pour le jeu de données de votre flux Data Wrangler.

    • Driver (Pilote) : com.simba.spark.jdbc.Driver.

    • JDBCURL— Celui URL de la base de données Databricks. Le URL formatage peut varier selon les instances de Databricks. Pour plus d'informations sur la recherche URL et la spécification des paramètres qu'il contient, consultez la section Paramètres JDBC de configuration et de connexion. Voici un exemple de formatage URL possible : jdbc:spark ://aws-sagemaker-datawrangler.cloud.databricks.com:443/default ; =http ; ssl=1 ; =sql/protocolv1/o/3122619508517275/0909-200301-cut318 ; =3 ; = transportMode httpPath AuthMech UIDtoken;PWD=personal-access-token.

      Note

      Vous pouvez spécifier un secret ARN contenant le au JDBC URL lieu de le spécifier JDBC URL lui-même. Le secret doit contenir une paire clé-valeur au format suivant : jdbcURL:JDBC-URL. Pour plus d'informations, consultez Qu'est-ce que Secrets Manager ?.

  7. Spécifiez une SQL SELECT déclaration.

    Note

    Data Wrangler ne prend pas en charge les expressions de table communes (CTE) ou les tables temporaires dans une requête.

  8. Pour Sampling (Échantillonnage), choisissez une méthode d'échantillonnage.

  9. Cliquez sur Exécuter.

  10. (Facultatif) Pour le PREVIEW, choisissez l'équipement pour ouvrir les paramètres de partition.

    1. Spécifiez le nombre de partitions. Vous pouvez partitionner par colonne si vous spécifiez le nombre de partitions :

      • Enter number of partitions (Saisissez le nombre de partitions) : spécifiez une valeur supérieure à 2.

      • (Facultatif) Partition by column (Partitionner par colonne) : renseignez les champs suivants. Vous ne pouvez partitionner par colonne que si vous avez spécifié une valeur dans le champ Enter number of partitions (Saisissez le nombre de partitions).

        • Select column (Sélectionner la colonne) – Sélectionnez la colonne que vous utilisez pour la partition de données. Le type de données de la colonne doit être numérique ou date.

        • Upper bound (Limite supérieure) – À partir des valeurs de la colonne que vous avez spécifiée, la limite supérieure est la valeur que vous utilisez dans la partition. La valeur que vous spécifiez ne modifie pas les données que vous importez. Elle n'affecte que la vitesse d'importation. Pour obtenir les meilleures performances, spécifiez une limite supérieure proche du maximum de la colonne.

        • Lower bound (Limite inférieure) – À partir des valeurs de la colonne que vous avez spécifiée, la limite inférieure est la valeur que vous utilisez dans la partition. La valeur que vous spécifiez ne modifie pas les données que vous importez. Elle n'affecte que la vitesse d'importation. Pour obtenir les meilleures performances, spécifiez une limite inférieure proche du minimum de la colonne.

  11. Choisissez Import (Importer).

Importer des données depuis Salesforce Data Cloud

Vous pouvez utiliser Salesforce Data Cloud comme source de données dans Amazon SageMaker Data Wrangler pour préparer les données de votre Salesforce Data Cloud à des fins d'apprentissage automatique.

Avec Salesforce Data Cloud comme source de données dans Data Wrangler, vous pouvez vous connecter rapidement à vos données Salesforce sans écrire une seule ligne de code. Vous pouvez joindre vos données Salesforce à des données provenant de toute autre source de données Data Wrangler.

Une fois connecté au cloud de données, vous pouvez effectuer les opérations suivantes :

  • Visualiser vos données à l'aide de visualisations intégrées

  • Comprendre les données et identifier les erreurs potentielles et les valeurs extrêmes

  • Transformer les données grâce à plus de 300 transformations intégrées

  • Exporter les données que vous avez transformées

Configuration d'administrateur

Important

Avant de commencer, assurez-vous que vos utilisateurs exécutent Amazon SageMaker Studio Classic version 1.3.0 ou ultérieure. Pour plus d'informations sur la vérification de la version de Studio Classic et sa mise à jour, consultezPréparez les données ML avec Amazon SageMaker Data Wrangler.

Lorsque vous configurez l'accès à Salesforce Data Cloud, vous devez effectuer les tâches suivantes :

  • Obtenir votre domaine SalesforceURL. Salesforce désigne également le domaine URL comme celui de votre organisationURL.

  • Obtenir des OAuth informations d'identification auprès de Salesforce.

  • Obtenir l'autorisation URL et le jeton URL pour votre domaine Salesforce.

  • Création d'un AWS Secrets Manager secret avec la OAuth configuration.

  • Créer une configuration du cycle de vie que Data Wrangler utilise pour lire les informations d'identification contenues dans le secret.

  • Permettre à Data Wrangler de lire le secret.

Après avoir effectué les tâches précédentes, vos utilisateurs peuvent se connecter au Salesforce Data Cloud à l'aide deOAuth.

Note

Vos utilisateurs peuvent rencontrer des problèmes une fois que vous avez tout configuré. Pour en savoir plus sur la résolution des problèmes, consultez Résolution des problèmes avec Salesforce.

Pour obtenir le domaine, procédez comme suitURL.

  1. Accédez à la page de connexion de Salesforce.

  2. Pour Recherche rapide, spécifiez Mon domaine.

  3. Copiez la valeur de Current My Domain URL dans un fichier texte.

  4. Ajoutez https:// au début duURL.

Après avoir obtenu le domaine SalesforceURL, vous pouvez utiliser la procédure suivante pour obtenir les informations de connexion auprès de Salesforce et autoriser Data Wrangler à accéder à vos données Salesforce.

Pour obtenir les informations d'identification de connexion auprès de Salesforce et donner l'accès à Data Wrangler, procédez comme suit.

  1. Accédez à votre domaine Salesforce URL et connectez-vous à votre compte.

  2. Choisissez l’icône d’engrenage.

  3. Dans la barre de recherche qui apparaît, spécifiez Gestionnaire d'applications.

  4. Sélectionnez Nouvelle application connectée.

  5. Spécifiez les champs suivants :

    • Nom de l'application connectée : vous pouvez spécifier n'importe quel nom, mais nous vous recommandons de choisir un nom qui inclut Data Wrangler. Par exemple, vous pouvez spécifier Intégration de Salesforce Data Cloud Data Wrangler.

    • APIname — Utilise la valeur par défaut.

    • Adresse e-mail de contact : spécifiez votre adresse e-mail.

    • Sous le APItitre (Activer OAuth les paramètres), cochez la case pour activer OAuth les paramètres.

    • Pour Callback, URL spécifiez Amazon SageMaker Studio ClassicURL. Pour obtenir le URL for Studio Classic, accédez-y depuis le AWS Management Console et copiez leURL.

  6. Sous Étendue OAuth sélectionnée, déplacez ce qui suit de la liste Étendue disponible OAuth vers Étendue sélectionnée OAuth :

    • Gérez les données utilisateur via APIs (api)

    • Exécuter les demandes à tout moment (refresh_token, offline_access)

    • Exécuter ANSI SQL des requêtes sur les données Salesforce Data Cloud (cdp_query_api)

    • Gérer les données de profil de Salesforce Customer Data Platform (cdp_profile_api)

  7. Choisissez Save (Enregistrer). Après avoir enregistré vos modifications, Salesforce ouvre une nouvelle page.

  8. Choisissez Continue

  9. Accédez à Clé et secret du consommateur.

  10. Choisissez Gérer les informations du consommateur. Salesforce vous redirige vers une nouvelle page où vous devrez peut-être passer une authentification à deux facteurs.

  11. Important

    Copiez la clé du consommateur et le secret du consommateur dans un éditeur de texte. Vous avez besoin de ces informations pour connecter le cloud de données à Data Wrangler.

  12. Revenez à Gérer les applications connectées.

  13. Accédez à Nom de l'application connectée et au nom de votre application.

  14. Choisissez Gérer.

    1. Sélectionnez Modifier les politiques.

    2. Modifiez Relaxation d'IP pour Assouplir les restrictions d'IP.

    3. Choisissez Save (Enregistrer).

Une fois que vous avez autorisé l'accès à votre Salesforce Data Cloud, vous devez fournir des autorisations à vos utilisateurs. Procédez comme suit pour leur accorder des autorisations.

Pour fournir des autorisations à vos utilisateurs, procédez comme suit.

  1. Accédez à la page d'accueil de la configuration.

  2. Dans la barre de navigation de gauche, recherchez Utilisateurs et choisissez l'élément de menu Utilisateurs.

  3. Choisissez le lien hypertexte avec votre nom d'utilisateur.

  4. Accédez à Attributions d'un jeu d'autorisations.

  5. Choisissez Modifier les attributions.

  6. Ajoutez les autorisations suivantes :

    • Administrateur de la plateforme de données client

    • Spécialiste en connaissance des données de la plateforme de données client

  7. Choisissez Save (Enregistrer).

Une fois que vous avez obtenu les informations relatives à votre domaine Salesforce, vous devez obtenir l'autorisation URL et le jeton URL AWS Secrets Manager correspondant au secret que vous créez.

Pour obtenir l'autorisation URL et le jeton, procédez comme suitURL.

Pour obtenir l'autorisation URL et le jeton URL
  1. Accédez à votre domaine SalesforceURL.

  2. Utilisez l'une des méthodes suivantes pour obtenir leURLs. Si vous utilisez une distribution Linux avec curl et jq installés, nous vous recommandons d'utiliser la méthode qui ne fonctionne que sous Linux.

    • (Linux uniquement) Spécifiez la commande suivante dans votre terminal.

      curl salesforce-domain-URL/.well-known/openid-configuration | \ jq '. | { authorization_url: .authorization_endpoint, token_url: .token_endpoint }' | \ jq '. += { identity_provider: "SALESFORCE", client_id: "example-client-id", client_secret: "example-client-secret" }'
      1. Naviguez vers example-org-URL/.well-known/openid-configuration dans votre navigateur.

      2. Copiez authorization_endpoint et token_endpoint dans un éditeur de texte.

      3. Créez l'JSONobjet suivant :

        { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }

Après avoir créé l'objet OAuth de configuration, vous pouvez créer un AWS Secrets Manager secret qui le stocke. Utilisez la procédure suivante pour créer le secret.

Pour créer un secret, procédez comme suit.

  1. Accédez à la console AWS Secrets Manager.

  2. Choisissez Stocker un secret.

  3. Sélectionnez Autre type de secret.

  4. Sous Paires clé/valeur, sélectionnez Texte brut.

  5. Remplacez le champ vide JSON par les paramètres de configuration suivants.

    { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }
  6. Choisissez Suivant.

  7. Dans Nom du secret, spécifiez le nom du secret.

  8. Sous Balises, choisissez Ajouter.

    1. Pour Clé, spécifiez sagemaker:partner. Pour Valeur, nous vous recommandons de spécifier une valeur qui pourrait être utile pour votre cas d'utilisation. Toutefois, vous pouvez spécifier ce que vous voulez.

    Important

    Vous devez créer la clé. Vous ne pouvez pas importer vos données depuis Salesforce sans la créer.

  9. Choisissez Suivant.

  10. Choisissez Stocker.

  11. Choisissez le secret que vous avez créé.

  12. Prenez en compte les champs suivants :

    • Le numéro de ressource Amazon (ARN) du secret

    • Le nom du secret

Après avoir créé le secret, vous devez ajouter des autorisations permettant à Data Wrangler de le lire. Procédez comme suit pour ajouter des autorisations.

Pour ajouter des autorisations de lecture pour Data Wrangler, procédez comme suit.

  1. Accédez à la SageMaker console Amazon.

  2. Choisissez des domaines.

  3. Choisissez le domaine que vous utilisez pour accéder à Data Wrangler.

  4. Choisissez votre Profil utilisateur.

  5. Sous Détails, recherchez le Rôle d'exécution. ARNIl est au format suivant :arn:aws:iam::111122223333:role/example-role. Notez le rôle d' SageMaker exécution. À l'intérieurARN, c'est tout ce qui suitrole/.

  6. Accédez à la console IAM.

  7. Dans la barre de IAM recherche de recherche, spécifiez le nom du rôle SageMaker d'exécution.

  8. Choisissez le rôle.

  9. Choisissez Add permissions (Ajouter des autorisations).

  10. Choisissez Create inline policy (Créer une politique en ligne).

  11. Choisissez l'JSONonglet.

  12. Spécifiez la politique suivante dans l'éditeur.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "secretsmanager:GetSecretValue", "secretsmanager:PutSecretValue" ], "Resource": "arn:aws:secretsmanager:*:*:secret:*", "Condition": { "ForAnyValue:StringLike": { "aws:ResourceTag/sagemaker:partner": "*" } } }, { "Effect": "Allow", "Action": [ "secretsmanager:UpdateSecret" ], "Resource": "arn:aws:secretsmanager:*:*:secret:AmazonSageMaker-*" } ] }
  13. Choisissez Examiner une politique.

  14. Pour Name (Nom), spécifiez un nom.

  15. Sélectionnez Create policy (Créer la stratégie).

Une fois que vous avez autorisé Data Wrangler à lire le secret, vous devez ajouter une configuration du cycle de vie utilisant votre secret Secrets Manager à votre profil utilisateur Amazon SageMaker Studio Classic.

Utilisez la procédure suivante pour créer une configuration de cycle de vie et l'ajouter au profil Studio Classic.

Pour créer une configuration de cycle de vie et l'ajouter au profil Studio Classic, procédez comme suit.

  1. Accédez à la SageMaker console Amazon.

  2. Choisissez des domaines.

  3. Choisissez le domaine que vous utilisez pour accéder à Data Wrangler.

  4. Choisissez votre Profil utilisateur.

  5. Si vous voyez les applications suivantes, supprimez-les :

    • KernelGateway

    • JupyterKernel

    Note

    La suppression des applications met à jour Studio Classic. Les mises à jour peuvent prendre un certain temps.

  6. Pendant que vous attendez que les mises à jour soient effectuées, choisissez Configurations de cycle de vie.

  7. Assurez-vous que la page sur laquelle vous vous trouvez indique les configurations du cycle de vie de Studio Classic.

  8. Choisissez Create configuration (Créer une configuration).

  9. Assurez-vous qu'Application Jupyter Server a été sélectionnée.

  10. Choisissez Suivant.

  11. Pour Nom, spécifiez un nom pour la configuration.

  12. Pour Scripts, spécifiez le script suivant :

    #!/bin/bash set -eux cat > ~/.sfgenie_identity_provider_oauth_config <<EOL { "secret_arn": "secrets-arn-containing-salesforce-credentials" } EOL
  13. Sélectionnez Envoyer.

  14. Dans la barre de navigation de gauche, sélectionnez les domaines.

  15. Choisissez votre domaine.

  16. Choisissez Environment (Environnement).

  17. Sous Configurations du cycle de vie pour les applications personnelles de Studio Classic, sélectionnez Attacher.

  18. Sélectionnez Configuration existante.

  19. Sous Configurations du cycle de vie de Studio Classic, sélectionnez la configuration du cycle de vie que vous avez créée.

  20. Choisissez Attacher au domaine.

  21. Cochez la case à côté de la configuration du cycle de vie que vous avez attachée.

  22. Sélectionnez Définir comme valeur par défaut.

Vous pouvez rencontrer des problèmes lors de la configuration de votre cycle de vie. Pour en savoir plus sur leur débogage, consultez Débogage des configurations de cycle de vie.

Guide des scientifiques des données

Utilisez ce qui suit pour connecter Salesforce Data Cloud et accéder à vos données dans Data Wrangler.

Important

Votre administrateur doit utiliser les informations des sections précédentes pour configurer Salesforce Data Cloud. Si vous rencontrez des problèmes, contactez-les pour obtenir de l'aide.

Pour ouvrir Studio Classic et vérifier sa version, consultez la procédure suivante.

  1. Suivez les étapes ci-dessous Prérequis pour accéder à Data Wrangler via Amazon SageMaker Studio Classic.

  2. À côté de l'utilisateur que vous souhaitez utiliser pour lancer Studio Classic, sélectionnez Lancer l'application.

  3. Choisissez Studio.

Pour créer un jeu de données dans Data Wrangler à partir des données de Salesforce Data Cloud
  1. Connectez-vous à Amazon SageMaker Console.

  2. Choisissez Studio.

  3. Choisissez Launch app (Lancer l'application).

  4. Dans la liste déroulante, sélectionnez Studio.

  5. Choisissez l'icône d'accueil.

  6. Choisissez Data (Données).

  7. Choisissez Data Wrangler.

  8. Choisissez Import data (Importer les données).

  9. Sous Disponible, choisissez Salesforce Data Cloud.

  10. Dans Nom de la connexion, spécifiez le nom de votre connexion à Salesforce Data Cloud.

  11. Pour Org URL, spécifiez l'organisation URL dans votre compte Salesforce. Vous pouvez les obtenir URL auprès de vos administrateurs.

  12. Choisissez Se connecter.

  13. Spécifiez vos informations d'identification pour vous connecter à Salesforce.

Vous pouvez commencer à créer un jeu de données à partir des données de Salesforce Data Cloud une fois que vous vous y êtes connecté.

Après avoir sélectionné une table, vous pouvez écrire des requêtes et les exécuter. La sortie de votre requête s'affichera sous Résultats de la requête.

Une fois que vous avez réglé la sortie de votre requête, vous pouvez l'importer dans un flux Data Wrangler pour effectuer des transformations de données.

Après avoir créé un jeu de données, accédez à l'écran Flux de données pour commencer à transformer vos données.

Importer des données depuis Snowflake

Vous pouvez utiliser Snowflake comme source de données dans Data Wrangler pour préparer SageMaker les données dans Snowflake à des fins d'apprentissage automatique.

Avec Snowflake comme source de données dans Data Wrangler, vous pouvez vous connecter rapidement à Snowflake sans écrire une seule ligne de code. Vous pouvez joindre vos données dans Snowflake à des données provenant de toute autre source de données Data Wrangler.

Une fois connecté, vous pouvez interroger de manière interactive les données stockées dans Snowflake, transformer les données avec plus de 300 transformations de données préconfigurées, comprendre les données et identifier les erreurs potentielles et les valeurs extrêmes grâce à un ensemble de modèles de visualisation préconfigurés robustes, identifier rapidement les incohérences dans votre flux de préparation des données, et diagnostiquer les problèmes avant que les modèles soient déployés en production. Enfin, vous pouvez exporter votre flux de travail de préparation des données vers Amazon S3 pour l'utiliser avec d'autres SageMaker fonctionnalités telles qu'Amazon SageMaker Autopilot, Amazon SageMaker Feature Store et Amazon SageMaker Model Building Pipelines.

Vous pouvez chiffrer le résultat de vos requêtes à l'aide d'une AWS Key Management Service clé que vous avez créée. Pour plus d'informations sur AWS KMS, voir AWS Key Management Service.

Guide de l'administrateur

Important

Pour en savoir plus sur le contrôle d'accès détaillé et les bonnes pratiques, veuillez consulter la rubrique Contrôle d'accès de sécurité.

Cette section est destinée aux administrateurs Snowflake qui configurent l'accès à Snowflake depuis Data Wrangler. SageMaker

Important

Vous êtes responsable de la gestion et de la surveillance du contrôle d'accès dans Snowflake. Data Wrangler n'ajoute pas de couche de contrôle d'accès par rapport à Snowflake.

Le contrôle d'accès inclut les éléments suivants :

  • Les données auxquelles un utilisateur accède

  • (Facultatif) L'intégration du stockage qui permet à Snowflake d'écrire les résultats des requêtes dans un compartiment Amazon S3

  • Les requêtes qu'un utilisateur peut exécuter

(Facultatif) Configurer les autorisations d'importation de données Snowflake

Par défaut, Data Wrangler interroge les données dans Snowflake sans en créer de copie dans un emplacement Amazon S3. Utilisez les informations suivantes si vous configurez une intégration de stockage avec Snowflake. Vos utilisateurs peuvent utiliser une intégration de stockage pour stocker les résultats de leurs requêtes dans un emplacement Amazon S3.

Vos utilisateurs peuvent avoir différents niveaux d'accès aux données sensibles. Pour une sécurité optimale des données, fournissez à chaque utilisateur sa propre intégration de stockage. Chaque intégration de stockage doit avoir sa propre politique de gouvernance des données.

Cette fonction n'est actuellement pas disponible dans les régions d'adhésion.

Snowflake a besoin des autorisations suivantes sur un compartiment et un répertoire S3 pour pouvoir accéder aux fichiers du répertoire :

  • s3:GetObject

  • s3:GetObjectVersion

  • s3:ListBucket

  • s3:ListObjects

  • s3:GetBucketLocation

Création d'une IAM politique

Vous devez créer une IAM politique pour configurer les autorisations d'accès permettant à Snowflake de charger et de décharger des données depuis un compartiment Amazon S3.

Le document de JSON stratégie que vous utilisez pour créer la stratégie est le suivant :

# Example policy for S3 write access # This needs to be updated { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:GetObjectVersion", "s3:DeleteObject", "s3:DeleteObjectVersion" ], "Resource": "arn:aws:s3:::bucket/prefix/*" }, { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": "arn:aws:s3:::bucket/", "Condition": { "StringLike": { "s3:prefix": ["prefix/*"] } } } ] }

Pour obtenir des informations et des procédures relatives à la création de politiques à l'aide de documents de stratégie, consultez la section Création IAM de politiques.

Pour une documentation qui fournit une vue d'ensemble de l'utilisation IAM des autorisations avec Snowflake, consultez les ressources suivantes :

Pour accorder à l'intégration de stockage l'autorisation d'utiliser le rôle Snowflake du scientifique des données, vous devez exécuter GRANT USAGE ON INTEGRATION integration_name TO snowflake_role;.

  • integration_name est le nom de votre intégration de stockage.

  • snowflake_role est le nom du rôle Snowflake par défaut donné au scientifique des données.

Configuration de Snowflake Access OAuth

Au lieu de demander à vos utilisateurs d'entrer directement leurs informations d'identification dans Data Wrangler, vous pouvez leur demander d'utiliser un fournisseur d'identité pour accéder à Snowflake. Vous trouverez ci-dessous des liens vers la documentation Snowflake qui répertorient les fournisseurs d'identité pris en charge par Data Wrangler.

Utilisez la documentation des liens précédents pour configurer l'accès à votre fournisseur d'identité. Les informations et les procédures dans cette section vous aident à comprendre comment utiliser correctement la documentation pour accéder à Snowflake dans Data Wrangler.

Votre fournisseur d'identité doit reconnaître Data Wrangler en tant qu'application. Pour enregistrer Data Wrangler comme application dans le fournisseur d'identité, procédez comme suit :

  1. Sélectionnez la configuration qui lance le processus d'enregistrement de Data Wrangler en tant qu'application.

  2. Fournissez aux utilisateurs du fournisseur d'identité l'accès à Data Wrangler.

  3. Activez l'authentification OAuth du client en stockant les informations d'identification du client sous forme de AWS Secrets Manager secret.

  4. Spécifiez une redirection URL au format suivant : https ://domain-ID.studio.Région AWS.sagemaker.aws/jupyter/default/lab

    Important

    Vous spécifiez l'ID de SageMaker domaine Amazon Région AWS que vous utilisez pour exécuter Data Wrangler.

    Important

    Vous devez en enregistrer un URL pour chaque SageMaker domaine Amazon et pour chaque domaine sur Région AWS lequel vous exécutez Data Wrangler. Les utilisateurs d'un domaine pour Région AWS lesquels aucune redirection n'est URLs configurée ne pourront pas s'authentifier auprès du fournisseur d'identité pour accéder à la connexion Snowflake.

  5. Assurez-vous que le code d'autorisation et les types d'octroi de jetons d'actualisation sont autorisés pour l'application Data Wrangler.

Au sein de votre fournisseur d'identité, vous devez configurer un serveur qui envoie OAuth des jetons à Data Wrangler au niveau de l'utilisateur. Le serveur envoie les jetons avec Snowflake comme public.

Snowflake utilise le concept de rôles distincts de ceux dans lesquels les IAM rôles sont utilisés. AWS Vous devez configurer le fournisseur d'identité pour qu'il utilise n'importe quel rôle afin d'utiliser le rôle par défaut associé au compte Snowflake. Par exemple, si un utilisateur a le rôle systems administrator par défaut dans son profil Snowflake, la connexion entre Data Wrangler et Snowflake utilise systems administrator comme rôle.

Suivez la procédure ci-dessous pour configurer le serveur.

Pour configurer le serveur, procédez comme suit. Vous travaillez dans Snowflake pour toutes les étapes sauf la dernière.

  1. Commencez à configurer le serveur ouAPI.

  2. Configurez le serveur d'autorisation pour utiliser le code d'autorisation et actualiser les types d'octroi de jetons.

  3. Spécifiez la durée de vie du jeton d'accès.

  4. Définissez le délai d'inactivité du jeton d'actualisation. Le délai d'inactivité est la durée au cours de laquelle le jeton d'actualisation expire s'il n'est pas utilisé.

    Note

    Si vous planifiez des tâches dans Data Wrangler, nous recommandons que le délai d'inactivité soit supérieur à la fréquence de la tâche de traitement. Dans le cas contraire, certaines tâches de traitement risquent d'échouer car le jeton d'actualisation a expiré avant qu'elles n'aient pu être exécutées. Lorsque le jeton d'actualisation expire, l'utilisateur doit s'authentifier à nouveau en accédant à la connexion qu'il a établie avec Snowflake via Data Wrangler.

  5. Spécifiez session:role-any comme nouvelle portée.

    Note

    Pour Azure AD, copiez l'identifiant unique de la portée. Data Wrangler vous demande de lui fournir l'identifiant.

  6. Important

    Dans l'intégration OAuth de sécurité externe pour Snowflake, activez. external_oauth_any_role_mode

Important

Data Wrangler ne prend pas en charge la rotation des jetons d'actualisation. L'utilisation de jetons d'actualisation en rotation peut entraîner des échecs d'accès ou la nécessité pour les utilisateurs de se connecter fréquemment.

Important

Si le jeton d'actualisation expire, vos utilisateurs doivent s'authentifier à nouveau en accédant à la connexion qu'ils ont établie avec Snowflake via Data Wrangler.

Après avoir configuré le OAuth fournisseur, vous fournissez à Data Wrangler les informations dont il a besoin pour se connecter au fournisseur. Vous pouvez utiliser la documentation de votre fournisseur d'identité pour obtenir des valeurs pour les champs suivants :

  • Jeton URL — Le URL jeton que le fournisseur d'identité envoie à Data Wrangler.

  • Autorisation URL : URL du serveur d'autorisation du fournisseur d'identité.

  • ID client : ID du fournisseur d'identité.

  • Secret du client : secret que seul le serveur d'autorisation API reconnaît.

  • (Azure AD uniquement) Les informations d'identification du OAuth scope que vous avez copiées.

Vous stockez les champs et les valeurs dans un AWS Secrets Manager secret et vous les ajoutez à la configuration du cycle de vie Amazon SageMaker Studio Classic que vous utilisez pour Data Wrangler. Une configuration du cycle de vie est un script shell. Utilisez-le pour rendre le nom de ressource Amazon (ARN) du secret accessible à Data Wrangler. Pour plus d'informations sur la création de secrets, voir Déplacer des secrets codés en dur vers AWS Secrets Manager. Pour plus d'informations sur l'utilisation des configurations de cycle de vie dans Studio Classic, consultezUtilisez les configurations du cycle de vie pour personnaliser Studio Classic.

Important

Avant de créer un secret Secrets Manager, assurez-vous que le rôle SageMaker d'exécution que vous utilisez pour Amazon SageMaker Studio Classic est autorisé à créer et à mettre à jour des secrets dans Secrets Manager. Pour plus d'informations sur l'ajout d'autorisations, consultez Exemple : Autorisation de créer des secrets.

Pour Okta et Ping Federate, le secret doit avoir le format suivant :

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"OKTA"|"PING_FEDERATE", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize" }

Pour Azure AD, le format du secret est le suivant :

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"AZURE_AD", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize", "datasource_oauth_scope":"api://appuri/session:role-any)" }

Vous devez disposer d'une configuration du cycle de vie qui utilise le secret Secrets Manager que vous avez créé. Vous pouvez soit créer la configuration du cycle de vie, soit en modifier une qui a déjà été créée. La configuration doit utiliser le script suivant.

#!/bin/bash set -eux ## Script Body cat > ~/.snowflake_identity_provider_oauth_config <<EOL { "secret_arn": "example-secret-arn" } EOL

Pour en savoir plus sur les configurations du cycle de vie, consultez Création et association d'une configuration de cycle de vie. Au cours du processus de configuration, procédez comme suit :

  • Définissez le type d'application de la configuration sur Jupyter Server.

  • Joignez la configuration au SageMaker domaine Amazon qui compte vos utilisateurs.

  • Exécutez la configuration par défaut. Il doit s'exécuter chaque fois qu'un utilisateur se connecte à Studio Classic. Dans le cas contraire, les informations d'identification enregistrées dans la configuration ne seront pas accessibles à vos utilisateurs lorsqu'ils utiliseront Data Wrangler.

  • La configuration du cycle de vie crée un fichier portant le nom snowflake_identity_provider_oauth_config dans le dossier de base de l'utilisateur. Le fichier contient le secret Secrets Manager. Assurez-vous qu'il se trouve dans le dossier de base de l'utilisateur chaque fois que l'instance du serveur Jupyter est initialisée.

Connectivité privée entre Data Wrangler et Snowflake via AWS PrivateLink

Cette section explique comment AWS PrivateLink établir une connexion privée entre Data Wrangler et Snowflake. Les étapes sont expliquées dans les sections suivantes.

Création d'un VPC

Si vous n'avez pas de VPC configuration, suivez les VPC instructions de création d'une nouvelle configuration pour en créer une.

Une fois que vous avez choisi celui VPC que vous souhaitez utiliser pour établir une connexion privée, fournissez les informations d'identification suivantes à votre administrateur Snowflake pour l'activer : AWS PrivateLink

  • VPCID

  • AWS ID de compte

  • Le compte correspondant URL que vous utilisez pour accéder à Snowflake

Important

Comme indiqué dans la documentation de Snowflake, l'activation de votre compte Snowflake peut prendre jusqu'à deux jours ouvrés.

Une fois AWS PrivateLink activé, récupérez la AWS PrivateLink configuration de votre région en exécutant la commande suivante dans une feuille de calcul Snowflake. Connectez-vous à votre console Snowflake et, sous Worksheets (Feuilles de calcul), saisissez les éléments suivants : select SYSTEM$GET_PRIVATELINK_CONFIG();

  1. Récupérez les valeurs pour les éléments suivants : privatelink-account-nameprivatelink_ocsp-url,privatelink-account-url, et privatelink_ocsp-url à partir de l'JSONobjet obtenu. Des exemples de chaque valeur sont repris dans l'extrait suivant. Conservez-les en vue d'une utilisation ultérieure.

    privatelink-account-name: xxxxxxxx.region.privatelink privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
  2. Accédez à votre AWS console et accédez au VPC menu.

  3. Dans le panneau de gauche, cliquez sur le lien Endpoints pour accéder à la configuration des VPCEndpoints.

    Une fois là, sélectionner Create Endpoint (Créer un point de terminaison).

  4. Sélectionnez la case d'option pour Find service by name (Rechercher un service par nom), comme illustré dans la capture d'écran suivante.

    La section Create Endpoint de la console.
  5. Dans le champ Service Name (Nom du service), collez la valeur pour privatelink-vpce-id que vous avez récupérée à l'étape précédente et sélectionnez Verify (Vérifier).

    Si la connexion est établie, une alerte verte indiquant que le nom du service a été trouvé apparaît sur votre écran et les options VPCet Sous-réseau s'étendent automatiquement, comme le montre la capture d'écran ci-dessous. Selon la région ciblée, l'écran résultant peut afficher un autre nom de région AWS .

    La section Create Endpoint de la console indique que la connexion est réussie.
  6. Sélectionnez le même VPC identifiant que celui que vous avez envoyé à Snowflake dans la VPCliste déroulante.

  7. Si vous n'avez pas encore créé de sous-réseau, suivez l'ensemble d'instructions suivant lié à la création d'un sous-réseau.

  8. Sélectionnez Sous-réseaux dans la VPCliste déroulante. Sélectionnez ensuite Créer un sous-réseau et suivez les instructions pour créer un sous-ensemble dans votre. VPC Assurez-vous de sélectionner l'VPCidentifiant que vous avez envoyé à Snowflake.

  9. Sous Security Group Configuration (Configuration du groupe de sécurité), sélectionnez Create New Security Group (Créer un nouveau groupe de sécurité) pour ouvrir l'écran par défaut Security Group (Groupe de sécurité) dans un nouvel onglet. Dans ce nouvel onglet, sélectionnez Create Security Group (Créer un groupe de sécurité).

  10. Donnez un nom au nouveau groupe de sécurité (comme datawrangler-doc-snowflake-privatelink-connection) et une description. Assurez-vous de sélectionner l'VPCidentifiant que vous avez utilisé lors des étapes précédentes.

  11. Ajoutez deux règles pour autoriser le trafic interne VPC vers ce VPC point de terminaison.

    Accédez à votre VPC section Votre VPCs dans un onglet séparé, et récupérez votre CIDR bloc pour votreVPC. Puis, sélectionnez Add Rule (Ajouter une règle) dans la section Inbound Rules (Règles entrantes). Sélectionnez HTTPS pour le type, laissez la Source sur Custom (Personnalisé) dans la forme, et collez la valeur extraite de l'appel describe-vpcs précédent (comme 10.0.0.0/16).

  12. Sélectionnez Create Security Group (Créer un groupe de sécurité). Récupérez le Security Group ID (ID du groupe de sécurité) du groupe de sécurité que vous venez de créer (comme sg-xxxxxxxxxxxxxxxxx).

  13. Dans l'écran de configuration du VPCpoint de terminaison, supprimez le groupe de sécurité par défaut. Collez l'ID du groupe de sécurité dans le champ de recherche et cochez la case.

    La section Groupe de sécurité de la console.
  14. Sélectionnez Create Endpoint (Créer un point de terminaison).

  15. Si la création du point de terminaison est réussie, une page contenant un lien vers la configuration de votre VPC point de terminaison, spécifiée par l'VPCID, s'affiche. Cliquez sur le lien pour afficher la configuration dans son intégralité.

    La section Détails du point de terminaison.

    Récupérez le premier enregistrement de la liste des DNS noms. Cela peut être différencié des autres DNS noms car il inclut uniquement le nom de la région (tel queus-west-2), et aucune notation alphabétique de zone de disponibilité (telle queus-west-2a). Conservez-le en vue d'une utilisation ultérieure.

Cette section explique comment configurer les points DNS de terminaison Snowflake dans votre. VPC Cela vous permet de VPC résoudre les demandes adressées au point de terminaison Snowflake AWS PrivateLink .

  1. Accédez au menu Route 53 dans votre AWS console.

  2. Sélectionnez l'option Hosted Zones (Zones hébergées) (si nécessaire, développez le menu de gauche pour trouver cette option).

  3. Choisissez Create Hosted Zone (Créer une zone hébergée).

    1. Dans le champ Domain name (Nom de domaine), référencez la valeur qui avait été stockée pour privatelink-account-url dans les étapes précédentes. Dans ce champ, votre identifiant de compte Snowflake est supprimé du DNS nom et utilise uniquement la valeur commençant par l'identifiant de région. Un Resource Record Set (Jeu d'enregistrements de ressources) est également créé ultérieurement pour le sous-domaine, comme region.privatelink.snowflakecomputing.com.

    2. Sélectionnez la case d'option pour Private Hosted Zone (Zone hébergée privée) dans la section Type. Votre code de région peut ne pas être us-west-2. Référencez le DNS nom qui vous a été renvoyé par Snowflake.

      La page Créer une zone hébergée dans la console.
    3. Dans la section VPCsà associer à la zone hébergée, sélectionnez la région dans laquelle vous vous VPC trouvez et l'VPCidentifiant utilisé lors des étapes précédentes.

      La section VPCsà associer à la zone hébergée dans la console.
    4. Choisissez Create Hosted Zone (Créer une zone hébergée).

  4. Ensuite, créez deux enregistrements, un pour privatelink-account-url et un pour privatelink_ocsp-url.

    • Dans le menu Hosted Zone (Zone hébergée), choisissez Create Record Set (Créer un jeu d'enregistrements).

      1. Sous Record name (Nom de l'enregistrement), saisissez votre ID de compte Snowflake uniquement (les 8 premiers caractères dans privatelink-account-url).

      2. Sous Type d'enregistrement, sélectionnez CNAME.

      3. Sous Valeur, entrez le DNS nom du point de VPC terminaison régional que vous avez récupéré à la dernière étape de la section Configurer l' AWS PrivateLink intégration Snowflake.

        La section Création rapide d'un enregistrement dans la console.
      4. Choisissez Create records (Créer des registres).

      5. Répétez les étapes précédentes pour l'OCSPenregistrement que nous avons notéprivatelink-ocsp-url, en commençant ocsp par l'identifiant Snowflake à 8 caractères pour le nom de l'enregistrement (tel que). ocsp.xxxxxxxx

        La section Création rapide d'un enregistrement dans la console.

Cette section explique comment configurer les points de terminaison entrants des résolveurs Route 53 pour votre. VPC

  1. Accédez au menu Route 53 dans votre AWS console.

    • Dans le volet de gauche de la section Security (Sécurité), sélectionnez l'option Security Groups (Groupes de sécurité).

  2. Sélectionnez Create Security Group (Créer un groupe de sécurité).

    • Fournissez un nom pour votre groupe de sécurité (comme datawranger-doc-route53-resolver-sg) et une description.

    • Sélectionnez l'VPCID utilisé lors des étapes précédentes.

    • Créez des règles qui autorisent le DNS UDP dépassement et le TCP retrait du VPC CIDR bloc.

      La section Règles de trafic entrant de la console.
    • Sélectionnez Create Security Group (Créer un groupe de sécurité). Notez l'ID du groupe de sécurité, car il ajoute une règle pour autoriser le trafic vers le groupe de sécurité du VPC point de terminaison.

  3. Accédez au menu Route 53 dans votre AWS console.

    • Dans la section Resolver (Résolveur), sélectionnez l'option Inbound Endpoint (Point de terminaison entrant).

  4. Choisissez Create inbound endpoint (Créer un point de terminaison entrant).

    • Donnez un nom au point de terminaison.

    • VPCDans la liste déroulante « Région », sélectionnez l'VPCidentifiant que vous avez utilisé lors de toutes les étapes précédentes.

    • Dans la liste déroulante Security group for this endpoint (Groupe de sécurité pour ce point de terminaison), sélectionnez l'ID du groupe de sécurité de l'étape 2 de cette section.

      La section Paramètres généraux pour les points de terminaison entrants de la console.
    • Dans la section IP Address (Adresse IP), sélectionnez une zone de disponibilité, sélectionnez un sous-réseau, et laissez la case d'option pour Use an IP address that is selected automatically (Utiliser une adresse IP sélectionnée automatiquement) sélectionnée pour chaque adresse IP.

      La section Adresse IP de la console.
    • Sélectionnez Envoyer.

  5. Sélectionnez le Inbound endpoint (Point de terminaison entrant) après sa création.

  6. Une fois le point de terminaison entrant créé, notez les deux adresses IP des résolveurs.

    La section Adresses IP de la console.
SageMaker VPCPoints de terminaison

Cette section explique comment créer des VPC points de terminaison pour les applications suivantes : Amazon SageMaker Studio Classic, SageMaker Notebooks, the SageMaker API, SageMaker Runtime Runtime et Amazon SageMaker Feature Store Runtime.

Créer un groupe de sécurité qui est appliqué à tous les points de terminaison.

  1. Accédez au EC2menu de la AWS console.

  2. Sélectionnez l'option Security groups (Groupes de sécurité) dans la section Network & Security (Réseau et sécurité).

  3. Sélectionnez Create security group (Créer un groupe de sécurité).

  4. Fournissez un nom (comme datawrangler-doc-sagemaker-vpce-sg) et une description au groupe de sécurité. Une règle est ajoutée ultérieurement pour autoriser le transfert du trafic HTTPS depuis SageMaker ce groupe.

Création des points de terminaison

  1. Accédez au VPCmenu de la AWS console.

  2. Sélectionnez l'option Endpoints (Points de terminaison).

  3. Choisissez Créer un point de terminaison.

  4. Recherchez le service en saisissant son nom dans le champ Search (Recherche).

  5. Dans la liste VPCdéroulante, sélectionnez l'endroit VPC dans lequel votre connexion Snowflake existe AWS PrivateLink .

  6. Dans la section Sous-réseaux, sélectionnez les sous-réseaux qui ont accès à la connexion PrivateLink Snowflake.

  7. Laissez la case Activer DNS le nom cochée.

  8. Dans la section Security Groups (Groupes de sécurité), sélectionnez le groupe de sécurité créé dans la section précédente.

  9. Choisissez Créer un point de terminaison.

Configuration de Studio Classic et de Data Wrangler

Cette section explique comment configurer Studio Classic et Data Wrangler.

  1. Configurez le groupe de sécurité.

    1. Accédez au EC2 menu Amazon dans la AWS console.

    2. Sélectionnez l'option Security Groups (Groupes de sécurité) dans la section Network & Security (Réseau et sécurité).

    3. Sélectionnez Create Security Group (Créer un groupe de sécurité).

    4. Fournissez un nom (comme datawrangler-doc-sagemaker-studio) et une description à votre groupe de sécurité.

    5. Créez les règles entrantes suivantes.

      • La HTTPS connexion au groupe de sécurité que vous avez configuré pour la PrivateLink connexion Snowflake que vous avez créée à l'étape Configurer l'intégration PrivateLink Snowflake.

      • La HTTP connexion au groupe de sécurité que vous avez configuré pour la PrivateLink connexion Snowflake que vous avez créée à l'étape Configurer l'intégration PrivateLink Snowflake.

      • Le groupe de sécurité « UDP and TCP for » DNS (port 53) to Route 53 Resolver Inbound Endpoint que vous avez créé à l'étape 2 de la section Configurer le point de terminaison entrant Route 53 Resolver pour votre. VPC

    6. Cliquez sur le bouton Create Security Group (Créer un groupe de sécurité) dans le coin inférieur droit.

  2. Configurez Studio Classic.

    • Accédez au SageMaker menu de la AWS console.

    • Sur la console de gauche, sélectionnez l'option SageMakerStudio Classic.

    • Si aucun domaine n'est configuré, le menu Get Started (Démarrer) apparaît.

    • Sélectionnez l'option Standard Setup (Configuration standard) dans le menu Get Started (Démarrer).

    • Sous Méthode d'authentification, sélectionnez AWS Identity and Access Management (IAM).

    • Depuis le menu Permissions (Autorisations), vous pouvez créer un nouveau rôle ou utiliser un rôle préexistant, selon votre cas d'utilisation.

      • Si vous avez choisi Create a new role (Créer un nouveau rôle), vous avez la possibilité de fournir un nom de compartiment S3, et une politique est générée pour vous.

      • Si vous disposez déjà d'un rôle créé avec des autorisations pour les compartiments S3 auxquels vous devez accéder, sélectionnez-le dans la liste déroulante. Ce rôle doit être associé à la politique AmazonSageMakerFullAccess.

    • Sélectionnez la liste déroulante Réseau et stockage pour configurer les utilisationsVPC, la sécurité et les sous-réseaux SageMaker.

      • Sous VPC, sélectionnez l'endroit VPC dans lequel votre PrivateLink connexion Snowflake existe.

      • Sous Sous-réseau (s), sélectionnez les sous-réseaux qui ont accès à la connexion PrivateLink Snowflake.

      • Sous Accès réseau pour Studio Classic, sélectionnez VPCUniquement.

      • Sous Security Group(s) (Groupe[s] de sécurité), sélectionnez le groupe de sécurité que vous avez créé à l'étape 1.

    • Sélectionnez Submit (Envoyer).

  3. Modifiez le groupe SageMaker de sécurité.

    • Créez les règles entrantes suivantes :

      • Port 2049 vers les groupes de NFS sécurité entrants et sortants créés automatiquement SageMaker à l'étape 2 (les noms des groupes de sécurité contiennent l'ID de domaine Studio Classic).

      • Accès à tous les TCP ports pour lui-même (obligatoire SageMaker pour VPC Only).

  4. Modifiez les groupes de sécurité des VPC terminaux :

    • Accédez au EC2 menu Amazon dans la AWS console.

    • Localisez le groupe de sécurité que vous avez créé à l'étape précédente.

    • Ajoutez une règle entrante autorisant le HTTPS trafic provenant du groupe de sécurité créé à l'étape 1.

  5. Créez un profil utilisateur.

    • Dans le panneau de configuration de SageMaker Studio Classic, choisissez Ajouter un utilisateur.

    • Indiquez un nom d'utilisateur.

    • Pour Execution role (Rôle d'exécution), choisissez de créer un rôle ou d'en utiliser un existant.

      • Si vous avez choisi Create a new role (Créer un nouveau rôle), vous avez la possibilité de fournir un nom de compartiment Amazon S3, et une politique est générée pour vous.

      • Si vous disposez déjà d'un rôle créé avec des autorisations sur les compartiments Amazon S3 auxquels vous devez accéder, sélectionnez-le dans la liste déroulante. Ce rôle doit être associé à la politique AmazonSageMakerFullAccess.

    • Sélectionnez Envoyer.

  6. Créez un flux de données (suivez le Guide du scientifique des données repris dans une section précédente).

    • Lorsque vous ajoutez une connexion Snowflake, entrez la valeur de privatelink-account-name (à partir de l'étape Configurer l' PrivateLinkintégration Snowflake) dans le champ du nom du compte Snowflake (alphanumérique), au lieu du nom de compte Snowflake ordinaire. Tout le reste est laissé inchangé.

Fournir des informations au scientifique des données

Fournissez au data scientist les informations dont il a besoin pour accéder à Snowflake depuis Amazon SageMaker Data Wrangler.

Important

Vos utilisateurs doivent exécuter Amazon SageMaker Studio Classic version 1.3.0 ou ultérieure. Pour plus d'informations sur la vérification de la version de Studio Classic et sa mise à jour, consultezPréparez les données ML avec Amazon SageMaker Data Wrangler.

  1. Pour permettre à votre data scientist d'accéder à Snowflake depuis SageMaker Data Wrangler, fournissez-lui l'un des éléments suivants :

    • Pour l'Authentification de base, un nom de compte Snowflake, un nom d'utilisateur et un mot de passe.

    • PourOAuth, un nom d'utilisateur et un mot de passe dans le fournisseur d'identité.

    • PourARN, le secret Amazon Resource Name (ARN) est utilisé par le Secrets Manager.

    • Un secret créé avec AWS Secrets Manager et le ARN du secret. Utilisez la procédure ci-dessous pour créer le secret pour Snowflake si vous choisissez cette option.

      Important

      Si vos scientifiques des données utilisent l'option Informations d'identification Snowflake [Nom d'utilisateur et mot de passe] pour s'y connecter, notez que Secrets Manager permet de stocker les informations d'identification dans un secret. Secrets Manager procède à une rotation des secrets dans le cadre d'un plan de sécurité des bonnes pratiques. Le secret créé dans Secrets Manager n'est accessible qu'avec le rôle Studio Classic configuré lorsque vous configurez un profil utilisateur Studio Classic. Cela nécessite que vous ajoutiez cette autorisation à la politique associée à votre rôle Studio Classic. secretsmanager:PutResourcePolicy

      Nous vous recommandons vivement de définir la politique des rôles de manière à utiliser différents rôles pour différents groupes d'utilisateurs de Studio Classic. Vous pouvez ajouter des autorisations supplémentaires basées sur les ressources pour les secrets de Secrets Manager. Veuillez consulter la politique Gestion de politique de secret pour connaître les clés de condition que vous pouvez utiliser.

      Pour plus d'informations sur la création d'un secret, consultez Création d'un secret. Vous êtes facturés pour les secrets que vous créez.

  2. (Facultatif) Fournissez au scientifique des données le nom de l'intégration de stockage que vous avez créée à l'aide de la procédure suivante : Créer une intégration de stockage dans le cloud dans Snowflake. Il s'agit du nom de la nouvelle intégration. Il est appelé integration_name dans la CREATE INTEGRATION SQL commande que vous avez exécutée, comme indiqué dans l'extrait de code suivant :

    CREATE STORAGE INTEGRATION integration_name TYPE = EXTERNAL_STAGE STORAGE_PROVIDER = S3 ENABLED = TRUE STORAGE_AWS_ROLE_ARN = 'iam_role' [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ] STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]

Guide des scientifiques des données

Utilisez ce qui suit pour connecter Salesforce et accéder à vos données dans Data Wrangler.

Important

Votre administrateur doit utiliser les informations des sections précédentes pour configurer Snowflake. Si vous rencontrez des problèmes, contactez-les pour obtenir de l'aide.

Vous pouvez vous connecter à Snowflake de l'une des manières suivantes :

  • En spécifiant vos informations d'identification Snowflake (nom du compte, nom d'utilisateur et mot de passe) dans Data Wrangler.

  • Fournir le nom de ressource Amazon (ARN) d'un secret contenant les informations d'identification.

  • Utilisation d'un standard ouvert pour le fournisseur de délégation d'accès (OAuth) qui se connecte à Snowflake. Votre administrateur peut vous donner accès à l'un des OAuth fournisseurs suivants :

Discutez avec votre administrateur de la méthode à utiliser pour vous connecter à Snowflake.

Les sections suivantes contiennent des informations sur la façon dont vous pouvez vous connecter à Snowflake à l'aide des méthodes précédentes.

Specifying your Snowflake Credentials
Pour importer un jeu de données dans Data Wrangler depuis Snowflake à l'aide de vos informations d'identification
  1. Connectez-vous à Amazon SageMaker Console.

  2. Choisissez Studio.

  3. Choisissez Launch app (Lancer l'application).

  4. Dans la liste déroulante, sélectionnez Studio.

  5. Choisissez l'icône d'accueil.

  6. Choisissez Data (Données).

  7. Choisissez Data Wrangler.

  8. Choisissez Import data (Importer les données).

  9. Sous Disponible, choisissez Snowflake.

  10. Pour Nom de la connexion, spécifiez un nom qui identifie la connexion de manière unique.

  11. Pour Méthode d'authentification, choisissez Nom d'utilisateur et mot de passe de base.

  12. Pour Nom du compte Snowflake (alphanumérique), spécifiez le nom complet du compte Snowflake.

  13. Pour Nom d'utilisateur, spécifiez le nom d'utilisateur que vous utilisez pour accéder au compte Snowflake.

  14. Pour Mot de passe, spécifiez le mot de passe associé au nom d'utilisateur.

  15. (Facultatif) Pour Paramètres avancés, spécifiez les éléments suivants :

    • Rôle : un rôle dans Snowflake. Certains rôles ont accès à différents jeux de données. Si vous ne spécifiez aucun rôle, Data Wrangler utilise le rôle par défaut dans votre compte Snowflake.

    • Intégration de stockage : lorsque vous spécifiez et exécutez une requête, Data Wrangler crée une copie temporaire des résultats de la requête en mémoire. Pour stocker une copie permanente des résultats de la requête, spécifiez l'emplacement Amazon S3 pour l'intégration du stockage. Votre administrateur vous a fourni le S3URI.

    • KMSID de clé : KMS clé que vous avez créée. Vous pouvez le spécifier ARN pour chiffrer le résultat de la requête Snowflake. Sinon, Data Wrangler utilise le chiffrement par défaut.

  16. Choisissez Se connecter.

Providing an Amazon Resource Name (ARN)
Pour importer un ensemble de données dans Data Wrangler depuis Snowflake à l'aide d'un ARN
  1. Connectez-vous à Amazon SageMaker Console.

  2. Choisissez Studio.

  3. Choisissez Launch app (Lancer l'application).

  4. Dans la liste déroulante, sélectionnez Studio.

  5. Choisissez l'icône d'accueil.

  6. Choisissez Data (Données).

  7. Choisissez Data Wrangler.

  8. Choisissez Import data (Importer les données).

  9. Sous Disponible, choisissez Snowflake.

  10. Pour Nom de la connexion, spécifiez un nom qui identifie la connexion de manière unique.

  11. Pour Méthode d'authentification, choisissez ARN.

  12. Secrets Manager ARN — Le ARN AWS Secrets Manager secret utilisé pour stocker les informations d'identification utilisées pour se connecter à Snowflake.

  13. (Facultatif) Pour Paramètres avancés, spécifiez les éléments suivants :

    • Rôle : un rôle dans Snowflake. Certains rôles ont accès à différents jeux de données. Si vous ne spécifiez aucun rôle, Data Wrangler utilise le rôle par défaut dans votre compte Snowflake.

    • Intégration de stockage : lorsque vous spécifiez et exécutez une requête, Data Wrangler crée une copie temporaire des résultats de la requête en mémoire. Pour stocker une copie permanente des résultats de la requête, spécifiez l'emplacement Amazon S3 pour l'intégration du stockage. Votre administrateur vous a fourni le S3URI.

    • KMSID de clé : KMS clé que vous avez créée. Vous pouvez le spécifier ARN pour chiffrer le résultat de la requête Snowflake. Sinon, Data Wrangler utilise le chiffrement par défaut.

  14. Choisissez Se connecter.

Using an OAuth Connection
Important

Votre administrateur a personnalisé votre environnement Studio Classic afin de fournir les fonctionnalités que vous utilisez pour utiliser une OAuth connexion. Vous devrez peut-être redémarrer l'application serveur Jupyter pour utiliser la fonctionnalité.

Suivez la procédure ci-dessous pour mettre à jour l'application serveur Jupyter.

  1. Dans Studio Classic, sélectionnez Fichier

  2. Choisissez Arrêter.

  3. Choisissez Arrêter le serveur.

  4. Fermez l'onglet ou la fenêtre que vous utilisez pour accéder à Studio Classic.

  5. Depuis la SageMaker console Amazon, ouvrez Studio Classic.

Pour importer un jeu de données dans Data Wrangler depuis Snowflake à l'aide de vos informations d'identification
  1. Connectez-vous à Amazon SageMaker Console.

  2. Choisissez Studio.

  3. Choisissez Launch app (Lancer l'application).

  4. Dans la liste déroulante, sélectionnez Studio.

  5. Choisissez l'icône d'accueil.

  6. Choisissez Data (Données).

  7. Choisissez Data Wrangler.

  8. Choisissez Import data (Importer les données).

  9. Sous Disponible, choisissez Snowflake.

  10. Pour Nom de la connexion, spécifiez un nom qui identifie la connexion de manière unique.

  11. Pour Méthode d'authentification, choisissez OAuth.

  12. (Facultatif) Pour Paramètres avancés, spécifiez les éléments suivants :

    • Rôle : un rôle dans Snowflake. Certains rôles ont accès à différents jeux de données. Si vous ne spécifiez aucun rôle, Data Wrangler utilise le rôle par défaut dans votre compte Snowflake.

    • Intégration de stockage : lorsque vous spécifiez et exécutez une requête, Data Wrangler crée une copie temporaire des résultats de la requête en mémoire. Pour stocker une copie permanente des résultats de la requête, spécifiez l'emplacement Amazon S3 pour l'intégration du stockage. Votre administrateur vous a fourni le S3URI.

    • KMSID de clé : KMS clé que vous avez créée. Vous pouvez le spécifier ARN pour chiffrer le résultat de la requête Snowflake. Sinon, Data Wrangler utilise le chiffrement par défaut.

  13. Choisissez Se connecter.

Vous pouvez commencer le processus d'importation de vos données depuis Snowflake une fois que vous vous y êtes connecté.

Dans Data Wrangler, vous pouvez consulter vos entrepôts des données, vos bases de données et vos schémas, ainsi que l'icône en forme d'œil avec laquelle vous pouvez prévisualiser votre table. Une fois que vous avez sélectionné l'icône Aperçu de la table, l'aperçu du schéma de cette table est généré. Vous devez sélectionner un entrepôt avant de pouvoir prévisualiser une table.

Important

Si vous importez un jeu de données avec des colonnes de type TIMESTAMP_TZ ou TIMESTAMP_LTZ, ajoutez ::string aux noms de colonnes de votre requête. Pour plus d'informations, voir Comment décharger les LTZ données TIMESTAMP _TZ et TIMESTAMP _ dans un fichier Parquet.

Après avoir sélectionné un entrepôt des données, une base de données et un schéma, vous pouvez écrire des requêtes et les exécuter. La sortie de votre requête s'affichera sous Résultats de la requête.

Une fois que vous avez réglé la sortie de votre requête, vous pouvez l'importer dans un flux Data Wrangler pour effectuer des transformations de données.

Après avoir importé vos données, accédez à votre flux Data Wrangler et commencez à y ajouter des transformations. Pour une liste des transformations disponibles, consultez Transformation de données.

Importer des données à partir de plateformes de logiciel en tant que service (SaaS)

Vous pouvez utiliser Data Wrangler pour importer des données à partir de plus de 40 plateformes de logiciel en tant que service (SaaS). Pour importer vos données depuis votre plateforme SaaS, vous ou votre administrateur devez utiliser Amazon AppFlow pour transférer les données de la plateforme vers Amazon S3 ou Amazon Redshift. Pour plus d'informations sur Amazon AppFlow, consultez Qu'est-ce qu'Amazon AppFlow ? Si vous n'avez pas besoin d'utiliser Amazon Redshift, nous vous recommandons de transférer les données vers Amazon S3 pour simplifier le processus.

Data Wrangler prend en charge le transfert de données à partir des plateformes SaaS suivantes :

La liste précédente contient des liens vers des informations supplémentaires sur la configuration de votre source de données. Vous ou votre administrateur pouvez consulter les liens précédents après avoir lu les informations suivantes.

Lorsque vous accédez à l'onglet Import (Importer) de votre flux Data Wrangler, les sources de données s'affichent dans les sections suivantes :

  • Disponible

  • Configurer des sources de données

Vous pouvez vous connecter à des sources de données sous Available (Disponible) sans avoir besoin d'une configuration supplémentaire. Vous pouvez choisir la source de données et importer vos données.

Sources de données sous Configuration des sources de données, vous ou votre administrateur devez utiliser Amazon AppFlow pour transférer les données de la plateforme SaaS vers Amazon S3 ou Amazon Redshift. Pour plus d'informations sur les transferts, veuillez consulter Utiliser Amazon AppFlow pour transférer vos données.

Une fois le transfert de données effectué, la plateforme SaaS apparaît en tant que source de données sous Available (Disponible). Vous pouvez la choisir et importer les données que vous avez transférées dans Data Wrangler. Les données que vous avez transférées apparaissent sous forme de tables que vous pouvez interroger.

Utiliser Amazon AppFlow pour transférer vos données

Amazon AppFlow est une plateforme que vous pouvez utiliser pour transférer des données de votre plateforme SaaS vers Amazon S3 ou Amazon Redshift sans avoir à écrire de code. Pour effectuer un transfert de données, utilisez la AWS Management Console.

Important

Vous devez vous assurer d'avoir configuré les autorisations nécessaires pour effectuer un transfert de données. Pour de plus amples informations, veuillez consulter AppFlow Autorisations Amazon.

Après avoir ajouté des autorisations, vous pouvez transférer les données. Au sein d'Amazon AppFlow, vous créez un flux pour transférer les données. Un flux est une série de configurations. Vous pouvez l'utiliser pour spécifier si vous exécutez le transfert de données selon un calendrier ou si vous partitionnez les données dans des fichiers distincts. Après avoir configuré le flux, vous pouvez l'exécuter pour transférer les données.

Pour plus d'informations sur la création d'un flux, consultez Création de flux dans Amazon AppFlow. Pour plus d'informations sur l'exécution d'un flux, consultez Activer un AppFlow flux Amazon.

Une fois les données transférées, utilisez la procédure suivante pour accéder aux données dans Data Wrangler.

Important

Avant d'essayer d'accéder à vos données, assurez-vous que votre IAM rôle est soumis à la politique suivante :

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "glue:SearchTables", "Resource": [ "arn:aws:glue:*:*:table/*/*", "arn:aws:glue:*:*:database/*", "arn:aws:glue:*:*:catalog" ] } ] }

Par défaut, le IAM rôle que vous utilisez pour accéder à Data Wrangler est le. SageMakerExecutionRole Pour plus d'informations sur l'ajout de politiques, consultez la section Ajout IAM d'autorisations d'identité (console).

Pour vous connecter à une source de données, procédez comme suit.

  1. Connectez-vous à Amazon SageMaker Console.

  2. Choisissez Studio.

  3. Choisissez Launch app (Lancer l'application).

  4. Dans la liste déroulante, sélectionnez Studio.

  5. Choisissez l'icône d'accueil.

  6. Choisissez Data (Données).

  7. Choisissez Data Wrangler.

  8. Choisissez Import data (Importer les données).

  9. Sous Available (Disponible), sélectionnez la source de données.

  10. Dans le champ Name (Nom), spécifiez le nom de la connexion.

  11. (Facultatif) Choisissez Advanced configuration (Configuration avancée).

    1. Choisissez un Workgroup (Groupe de travail).

    2. Si votre groupe de travail n'a pas appliqué l'emplacement de sortie Amazon S3 ou si vous n'avez pas utilisé un groupe de travail, spécifiez une valeur pour Emplacement Amazon S3 des résultats des requêtes.

    3. (Facultatif) Pour la zone Data retention period (Durée de conservation des données), cochez la case permettant de définir une durée de conservation des données et spécifiez le nombre de jours pendant lesquels les données doivent être stockées avant leur suppression.

    4. (Facultatif) Par défaut, Data Wrangler enregistre la connexion. Vous pouvez choisir de désélectionner la case à cocher et de ne pas enregistrer la connexion.

  12. Choisissez Se connecter.

  13. Spécifiez une requête.

    Note

    Pour vous aider à définir une requête, vous pouvez sélectionner un tableau dans le panneau de navigation de gauche. Data Wrangler affiche le nom et un aperçu du tableau. Choisissez l'icône en regard du nom du tableau pour copier son nom. Vous pouvez utiliser le nom du tableau dans la requête.

  14. Cliquez sur Exécuter.

  15. Choisissez Import query (Importer une requête).

  16. Dans Dataset name (Nom du jeu de données), indiquez le nom du jeu de données.

  17. Choisissez Ajouter.

Lorsque vous accédez à l'écran Import data (Importer des données), vous pouvez voir la connexion que vous avez créée. Vous pouvez utiliser la connexion pour importer davantage de données.

Stockage des données importées

Important

Nous vous recommandons vivement de suivre les bonnes pratiques en matière de protection de votre compartiment Amazon S3 en suivant les bonnes pratiques de sécurité.

Lorsque vous interrogez des données depuis Amazon Athena ou Amazon Redshift, le jeu de données interrogé est automatiquement stocké dans Amazon S3. Les données sont stockées dans le compartiment SageMaker S3 par défaut de la AWS région dans laquelle vous utilisez Studio Classic.

Les compartiments S3 par défaut ont la convention de dénomination suivante : sagemaker-region-account number. Par exemple, si votre numéro de compte est 111122223333 et que vous utilisez Studio Classic dansus-east-1, vos ensembles de données importés sont stockés dans 111122223333. sagemaker-us-east-1-

Les flux Data Wrangler dépendent de cet emplacement de jeu de données Amazon S3, vous ne devez donc pas modifier ce jeu de données dans Amazon S3 lorsque vous utilisez un flux dépendant. Si vous modifiez cet emplacement S3 et que vous souhaitez continuer à utiliser votre flux de données, vous devez supprimer tous les objets dans trained_parameters dans votre fichier .flow. Pour ce faire, téléchargez le fichier .flow depuis Studio Classic et supprimez toutes les entrées pour chaque instance detrained_parameters. Lorsque vous avez terminé, l'JSONobjet trained_parameters doit être vide :

"trained_parameters": {}

Lorsque vous exportez et utilisez votre flux de données pour traiter vos données, le fichier .flow que vous exportez fait référence à ce jeu de données dans Amazon S3. Consultez les sections suivantes pour en apprendre plus.

Stockage d'importation Amazon Redshift

Data Wrangler stocke les ensembles de données résultant de votre requête dans un fichier Parquet dans votre compartiment S3 par défaut SageMaker .

Ce fichier est enregistré sous le préfixe (répertoire) suivant : redshift/uuid/data/, où uuid est un identifiant unique créé pour chaque requête.

Par exemple, si votre compartiment par défaut estsagemaker-us-east-1-111122223333, un seul ensemble de données demandé par Amazon Redshift se trouve dans s3 ://-1-111122223333/redshift/ sagemaker-us-eastuuid/données/.

Stockage d'importation Amazon Athena

Lorsque vous interrogez une base de données Athena et importez un jeu de données, Data Wrangler stocke le jeu de données, ainsi qu'un sous-ensemble de ce jeu de données, ou preview files (aperçu des fichiers), dans Amazon S3.

Le jeu de données que vous importez en sélectionnant Import dataset (Importer un jeu de données) est stocké au format Parquet dans Amazon S3.

Les fichiers d'aperçu sont écrits au CSV format lorsque vous sélectionnez Exécuter sur l'écran d'importation d'Athena et contiennent jusqu'à 100 lignes provenant de l'ensemble de données que vous avez demandé.

L'ensemble de données que vous recherchez se trouve sous le préfixe (répertoire) : athena/uuid/data/, où uuid est un identifiant unique créé pour chaque requête.

Par exemple, si votre bucket par défaut estsagemaker-us-east-1-111122223333, un seul jeu de données interrogé par Athena se trouve dans /athena/ s3://sagemaker-us-east-1-111122223333uuid/données/example_dataset.parquet.

Le sous-ensemble du jeu de données stocké pour prévisualiser les fichiers de données dans Data Wrangler est stocké sous le préfixe athena/.