Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Pour des raisons de sécurité, d'audit ou de contrôle, vous pouvez souhaiter que votre magasin de données Amazon S3 ou vos tables du catalogue de données basées sur Amazon S3 soient uniquement accessibles via un environnement Amazon Virtual Private Cloud (Amazon VPC). Cette rubrique décrit la manière de créer et de tester une connexion au magasin de données Amazon S3 ou des tables du catalogue de données basées sur Amazon S3 dans un point de terminaison d'un VPC à l'aide du type de connexion Network
.
Effectuez les tâches suivantes pour exécuter un crawler sur le magasin de données :
Prérequis
Vérifier que vous avez satisfait à ces conditions préalables pour la configuration de votre magasin de données Amazon S3 ou vos tables du catalogue de données basées sur Amazon S3 pour y accéder via un environnement Amazon Virtual Private Cloud (Amazon VPC).
-
Un VPC configuré. Par exemple : vpc-01685961063b0d84b. Pour plus d'informations, consultez Mise en route avec Amazon VPC dans le Guide de l'utilisateur Amazon VPC.
-
Un point de terminaison Amazon S3 attaché au VPC. Par exemple : vpc-01685961063b0d84b. Pour de plus amples informations, veuillez consulter Points de terminaison pour Amazon S3 dans le Guide de l'utilisateur Amazon VPC.
-
Entrée d'acheminement pointant vers le point de terminaison d'un VPC. Par exemple vpce-0ec5da4d265227786 dans la table de routage utilisée par le point de terminaison d'un VPC (vpce-0ec5da4d265227786).
-
Une ACL réseau attachée au VPC autorise le trafic.
-
Un groupe de sécurité attaché au VPC autorise le trafic.
Création de la connexion à Amazon S3
Généralement, vous créez des ressources dans Amazon Virtual Private Cloud (Amazon VPC) afin qu'elles ne soient pas accessibles via l'Internet public. Par défaut, AWS Glue impossible d'accéder aux ressources d'un VPC. Pour permettre l'accès AWS Glue aux ressources de votre VPC, vous devez fournir des informations de configuration supplémentaires spécifiques au VPC, notamment le sous-réseau et le groupe de sécurité du VPC. IDs IDs Pour créer une connexion Network
, vous devez spécifier les informations suivantes :
-
ID d'un VPC
-
Un sous-réseau au sein du VPC
-
Un groupe de sécurité
Pour configurer une connexion Network
:
-
Choisissez Add connection (Ajouter une connexion) dans le panneau de navigation de la console AWS Glue .
-
Saisissez le nom de la connexion, puis choisissez Network (Réseau) comme type de connexion. Choisissez Suivant.
-
Configurez les informations du VPC, du sous-réseau et des groupes de sécurité.
-
VPC : choisissez le nom du VPC qui contient votre magasin de données.
-
Subnet (Sous-réseau) : choisissez le sous-réseau au sein de votre VPC.
-
Security groups (Groupes de sécurité) : choisissez un ou plusieurs groupes de sécurité qui autorisent l'accès au stockage des données dans votre VPC.
-
-
Choisissez Suivant.
-
Vérifiez les informations de connexion et choisissez Finish (Terminer).
Test de la connexion à Amazon S3
Une fois que vous avez créé votre connexion Network
, vous pouvez tester la connectivité à votre magasin de données Amazon S3 dans un point de terminaison d'un VPC.
Les erreurs suivantes peuvent se produire lors du test d'une connexion :
-
INTERNET CONNECTION ERROR (Erreur de connexion Internet) : indique un problème de connexion Internet
-
INVALID BUCKET ERROR (Erreur de compartiment non valide) : indique un problème avec le compartiment Amazon S3
-
S3 CONNECTION ERROR (Erreur de connexion S3) : indique un échec de connexion à Amazon S3
-
INVALID CONNECTION TYPE (Type de connexion non valide) : indique que le type de connexion n'a pas la valeur attendue,
NETWORK
-
INVALID CONNECTION TEST TYPE (Type de test de connexion non valide) : indique un problème avec le type de test de connexion réseau
-
INVALID TARGET (Cible non valide) : indique que le compartiment Amazon S3 n'a pas été spécifié correctement
Pour tester une connexion Network
:
-
Sélectionnez la connexion Network (Réseau) dans la console AWS Glue .
-
Choisissez Test connection (Tester la connexion).
-
Choisissez le rôle IAM que vous avez créé à l'étape précédente et spécifiez un compartiment Amazon S3.
-
Choisissez Test connection (Tester la connexion) pour démarrer le test. Cela peut prendre quelques instants pour afficher le résultat.

Si vous recevez une erreur, effectuez les vérifications suivantes :
-
Les privilèges corrects sont fournis au rôle sélectionné.
-
Le compartiment Amazon S3 approprié est fourni.
-
Les groupes de sécurité et la liste ACL réseau autorisent le trafic entrant et sortant requis.
-
Le VPC que vous avez spécifié est connecté à un point de terminaison d'un VPC Amazon S3.
Après avoir testé la connexion, vous pouvez créer un crawler.
Création d'un crawler pour un magasin de données Amazon S3
Vous pouvez désormais créer un crawler qui spécifie la connexion Network
que vous avez créée. Pour plus d'informations sur la création d'un crawler, veuillez consulter Configuration d'un crawler.
-
Commencez par choisir Crawlers dans le volet de navigation de la AWS Glue console.
-
Choisissez Add crawler (Ajouter un crawler).
-
Indiquez le nom du crawler, puis choisissez Next (Suivant).
-
Lorsque vous êtes invité à indiquer la source de données, sélectionnez S3, puis spécifiez le préfixe du compartiment Amazon S3 et la connexion que vous avez créée plus tôt.
-
Si nécessaire, ajoutez un autre magasin de données sur la même connexion réseau.
-
Choisissez le rôle IAM. Le rôle IAM doit autoriser l'accès au service AWS Glue et au compartiment Amazon S3. Pour de plus amples informations, veuillez consulter Configuration d'un crawler.
-
Définissez le planificateur pour le crawler.
-
Choisissez une base de données existante dans le catalogue de données ou créez-en une.
-
Terminez la configuration restante.
Création d'un crawler pour les tables du catalogue de données basées sur Amazon S3
Vous pouvez désormais créer un crawler qui spécifie la connexion Network
que vous avez créée et un type de source du catalogue. Pour plus d'informations sur la création d'un crawler, veuillez consulter Configuration d'un crawler.
-
Commencez par choisir Crawlers dans le volet de navigation de la AWS Glue console.
-
Choisissez Add crawler (Ajouter un crawler).
-
Indiquez le nom du crawler, puis choisissez Next (Suivant).
-
Lorsque vous êtes invité à indiquer le type de source du crawler, sélectionnez Existing catalog tables (Tables catalogue existantes), et indiquez les tables de catalogue existantes à analyser dans la liste des tables disponibles.
-
Choisissez le rôle IAM. Le rôle IAM doit autoriser l'accès au service AWS Glue et au compartiment Amazon S3. Pour de plus amples informations, veuillez consulter Configuration d'un crawler.
-
Définissez le planificateur pour le crawler.
-
Choisissez une base de données existante dans le catalogue de données ou créez-en une.
-
Terminez la configuration restante et passez en revue vos étapes.
Exécution d'un crawler
Exécutez votre crawler.

Résolution des problèmes
Pour résoudre les problèmes liés aux compartiments Amazon S3 à l'aide d'une passerelle VPC, veuillez consulter Pourquoi ne puis-je pas me connecter à un compartiment S3 à l'aide d'un point de terminaison d'un VPC passerelle ?