Prérequis pour le crawler - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Prérequis pour le crawler

Le robot d'exploration assume les autorisations du rôle AWS Identity and Access Management (IAM) que vous spécifiez lorsque vous le définissez. Ce rôle IAM doit disposer d'autorisations pour extraire les données de votre magasin de données et écrire sur Data Catalog. Le AWS Glue la console répertorie uniquement les rôles IAM associés à une politique de confiance pour AWS Glue service principal. Dans la console, vous pouvez également créer un rôle IAM avec une politique IAM permettant d'accéder aux magasins de données Amazon S3 auxquels l'crawler accède. Pour plus d'informations sur la fourniture de rôles pour AWS Glue, voir Politiques basées sur l'identité pour Glue AWS.

Note

Lorsque vous analysez un magasin de données Delta Lake, vous devez disposer d'autorisations en lecture/écriture sur l'emplacement Amazon S3.

Pour votre crawler, vous pouvez créer un rôle et attacher les politiques suivantes :

  • La politique AWSGlueServiceRole AWS gérée, qui accorde les autorisations requises sur le catalogue de données

  • Politique en ligne qui accorde des autorisations sur la source de données.

  • Une politique intégrée qui accorde l'iam:PassRoleautorisation d'utiliser le rôle.

Une approche plus rapide consiste à laisser AWS Glue l'assistant d'exploration de la console crée un rôle pour vous. Le rôle qu'il crée est spécifiquement destiné au robot d'exploration et inclut la politique AWSGlueServiceRole AWS gérée ainsi que la politique en ligne requise pour la source de données spécifiée.

Si vous spécifiez un rôle existant pour un crawler, assurez-vous qu'il inclut la politique AWSGlueServiceRole ou l'équivalent (ou une version limitée de cette politique), ainsi que les politiques en ligne requises. Par exemple, pour un magasin de données Amazon S3, la politique en ligne serait au minimum la suivante :

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::bucket/object*" ] } ] }

Pour un magasin de données Amazon DynamoDB, la politique serait au minimum la suivante :

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "dynamodb:DescribeTable", "dynamodb:Scan" ], "Resource": [ "arn:aws:dynamodb:region:account-id:table/table-name*" ] } ] }

En outre, si le robot lit AWS Key Management Service (AWS KMS) des données Amazon S3 chiffrées, le rôle IAM doit disposer d'une autorisation de déchiffrement sur la clé. AWS KMS Pour de plus amples informations, veuillez consulter Étape 2 : créer un rôle IAM pour AWS Glue.