Configuration d'un robot d'exploration pour utiliser les informations d'identification de Lake Formation

Mode de mise au point

Configuration d'un robot d'exploration pour utiliser les informations d'identification de Lake Formation - AWS Glue

Configuration requise lorsque le crawler et l'emplacement Amazon S3 enregistré ou la table du catalogue de données se trouvent dans le même compte (indexation de site web intégrée au compte)

Vous pouvez configurer un robot d'exploration pour qu'il utilise des AWS Lake Formation informations d'identification pour accéder à un magasin de données Amazon S3 ou à une table de catalogue de données contenant un emplacement Amazon S3 sous-jacent au même Compte AWS ou à un autre Compte AWS. Vous pouvez configurer une table du catalogue de données existante en tant que cible d'un crawler, si le crawler et la table du catalogue de données se trouvent dans le même compte. Actuellement, une seule cible de catalogue avec une seule table de catalogue est autorisée lors de l'utilisation d'une table de catalogue de données comme cible d'un robot d'exploration.

Note

Lorsque vous définissez une table du catalogue de données en tant que cible du crawler, assurez-vous que l'emplacement sous-jacent de la table du catalogue de données est un emplacement Amazon S3. Les crawlers qui utilisent les informations d'identification Lake Formation ne prennent en charge que les cibles du catalogue de données avec des emplacements Amazon S3 sous-jacents

Configuration requise lorsque le crawler et l'emplacement Amazon S3 enregistré ou la table du catalogue de données se trouvent dans le même compte (indexation de site web intégrée au compte)

Pour permettre au crawler d'accéder à un magasin de données ou à une table du catalogue de données à l'aide des informations d'identification de Lake Formation, vous devez enregistrer l'emplacement des données auprès de Lake Formation. En outre, le rôle IAM du crawler doit être autorisé à lire les données depuis la destination où le compartiment Amazon S3 est enregistré.

Vous pouvez effectuer les étapes de configuration suivantes à l'aide du AWS Management Console ou AWS Command Line Interface (AWS CLI).

AWS Management Console

Avant de configurer un crawler pour accéder à sa source, enregistrez l'emplacement des données du magasin de données ou du catalogue de données auprès de Lake Formation. Dans la console Lake Formation (https://console.aws.amazon.com/lakeformation/), enregistrez un emplacement Amazon S3 comme emplacement racine de votre lac de données dans l' Compte AWS endroit où le robot est défini. Pour plus d'informations, consultez la rubrique Enregistrement d'un emplacement Amazon S3.
Accordez des autorisations Emplacement des données au rôle IAM utilisé pour l'exécution du crawler afin que celui-ci puisse lire les données depuis la destination dans Lake Formation. Pour plus d'informations, consultez la rubrique Octroi d'autorisations d'emplacement de données (même compte).
Accordez les autorisations d'accès au rôle de crawler (Create) à la base de données, qui est spécifiée comme base de données de sortie. Pour plus d'informations, consultez la rubrique Octroi d'autorisations de base de données via la console Lake Formation et la méthode de ressource nommée.
Dans la console IAM (https://console.aws.amazon.com/iam/), créez un rôle IAM pour le robot d'exploration. Ajoutez la stratégie lakeformation:GetDataAccess au rôle.
Dans la AWS Glue console (https://console.aws.amazon.com/glue/), lors de la configuration du robot d'exploration, sélectionnez l'option Utiliser les informations d'identification de Lake Formation pour analyser la source de données Amazon S3.

Note
Le champ accountId est facultatif pour l'indexation de site web intégrée au compte.

AWS CLI


aws glue --profile demo create-crawler --debug --cli-input-json '{
    "Name": "prod-test-crawler",
    "Role": "arn:aws:iam::111122223333:role/service-role/AWSGlueServiceRole-prod-test-run-role",
    "DatabaseName": "prod-run-db",
    "Description": "",
    "Targets": {
    "S3Targets":[
                {
                 "Path": "s3://crawl-testbucket"
                }
                ]
                },
   "SchemaChangePolicy": {
      "UpdateBehavior": "LOG",
      "DeleteBehavior": "LOG"
  },
  "RecrawlPolicy": {
    "RecrawlBehavior": "CRAWL_EVERYTHING"
  },
  "LineageConfiguration": {
    "CrawlerLineageSettings": "DISABLE"
  },
  "LakeFormationConfiguration": {
    "UseLakeFormationCredentials": true,
    "AccountId": "111122223333"
  },
  "Configuration": {
           "Version": 1.0,
           "CrawlerOutput": {
             "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" },
             "Tables": {"AddOrUpdateBehavior": "MergeNewColumns" }
           },
           "Grouping": { "TableGroupingPolicy": "CombineCompatibleSchemas" }
         },
  "CrawlerSecurityConfiguration": "",
  "Tags": {
    "KeyName": ""
  }
}'

anchor anchor

Avant de configurer un crawler pour accéder à sa source, enregistrez l'emplacement des données du magasin de données ou du catalogue de données auprès de Lake Formation. Dans la console Lake Formation (https://console.aws.amazon.com/lakeformation/), enregistrez un emplacement Amazon S3 comme emplacement racine de votre lac de données dans l' Compte AWS endroit où le robot est défini. Pour plus d'informations, consultez la rubrique Enregistrement d'un emplacement Amazon S3.
Accordez des autorisations Emplacement des données au rôle IAM utilisé pour l'exécution du crawler afin que celui-ci puisse lire les données depuis la destination dans Lake Formation. Pour plus d'informations, consultez la rubrique Octroi d'autorisations d'emplacement de données (même compte).
Accordez les autorisations d'accès au rôle de crawler (Create) à la base de données, qui est spécifiée comme base de données de sortie. Pour plus d'informations, consultez la rubrique Octroi d'autorisations de base de données via la console Lake Formation et la méthode de ressource nommée.
Dans la console IAM (https://console.aws.amazon.com/iam/), créez un rôle IAM pour le robot d'exploration. Ajoutez la stratégie lakeformation:GetDataAccess au rôle.
Dans la AWS Glue console (https://console.aws.amazon.com/glue/), lors de la configuration du robot d'exploration, sélectionnez l'option Utiliser les informations d'identification de Lake Formation pour analyser la source de données Amazon S3.

Note
Le champ accountId est facultatif pour l'indexation de site web intégrée au compte.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Spécification d'un seuil de table

Configuration requise lorsque le crawler et l'emplacement Amazon S3 enregistré se trouvent dans des comptes différents (indexation de site web entre comptes)

Rubrique suivante :

Configuration requise lorsque le crawler et l'emplacement Amazon S3 enregistré se trouvent dans des...

Rubrique précédente :

Spécification d'un seuil de table

Avez-vous besoin d’aide ?

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Configuration d'un robot d'exploration pour utiliser les informations d'identification de Lake Formation

Note

Configuration requise lorsque le crawler et l'emplacement Amazon S3 enregistré ou la table du catalogue de données se trouvent dans le même compte (indexation de site web intégrée au compte)

Note

Note

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?

Sur cette page

Related resources

Cette page vous a-t-elle été utile ?

Related resources