Configurazione di un crawler per l'utilizzo delle credenziali di Lake Formation - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione di un crawler per l'utilizzo delle credenziali di Lake Formation

Puoi configurare un crawler per utilizzare AWS Lake Formation le credenziali per accedere a un data store Amazon S3 o a una tabella Data Catalog con una posizione Amazon S3 sottostante all'interno della stessa o di un'altra. Account AWS Account AWSÈ possibile configurare una tabella del catalogo dati esistente come destinazione del crawler se entrambi si trovano nello stesso account. Attualmente, è consentito utilizzare una sola destinazione di catalogo con una singola tabella di catalogo quando si utilizza una tabella Data Catalog come destinazione del crawler.

Nota

Quando si definisce una tabella del catalogo dati come destinazione del crawler, assicurarsi che la posizione sottostante della tabella sia una posizione Amazon S3. I crawler che utilizzano le credenziali Lake Formation supportano solo le destinazioni del catalogo con le posizioni Amazon S3 sottostanti.

Configurazione richiesta quando il crawler e la posizione registrata di Amazon S3 o la tabella del catalogo dati si trovano nello stesso account (crawling all'interno dell'account)

Per consentire al crawler di accedere a un datastore o a una tabella del catalogo dati utilizzando le credenziali di Lake Formation, è necessario registrare la posizione dei dati con Lake Formation. Inoltre, il IAM ruolo del crawler deve disporre delle autorizzazioni per leggere i dati dalla destinazione in cui è registrato il bucket Amazon S3.

Puoi completare i seguenti passaggi di configurazione utilizzando o (). AWS Management Console AWS Command Line Interface AWS CLI

AWS Management Console
  1. Prima di configurare un crawler per accedere alla sua origine, registra la posizione dei dati del datastore o del catalogo dati con Lake Formation. Nella console Lake Formation (https://console.aws.amazon.com/lakeformation/), registra una posizione Amazon S3 come posizione principale del tuo data lake nel punto in Account AWS cui è definito il crawler. Per ulteriori informazioni, consulta la pagina Registrazione di una posizione Amazon S3.

  2. Concedi le autorizzazioni di localizzazione dei dati al IAM ruolo utilizzato per l'esecuzione del crawler in modo che il crawler possa leggere i dati dalla destinazione in Lake Formation. Per ulteriori informazioni, consulta la pagina Concessione delle autorizzazioni per la posizione dei dati (stesso account).

  3. Concessione al ruolo crawler delle autorizzazioni di accesso (Create) al database, che è specificato come database di output. Per ulteriori informazioni, consulta la pagina Concessione delle autorizzazioni al database tramite la console di Lake Formation e il metodo delle risorse denominate.

  4. Nella IAM console (https://console.aws.amazon.com/iam/), create un IAM ruolo per il crawler. Aggiungi la policy lakeformation:GetDataAccess al ruolo.

  5. Nella AWS Glue console (https://console.aws.amazon.com/glue/), durante la configurazione del crawler, seleziona l'opzione Usa le credenziali di Lake Formation per la scansione dell'origine dati Amazon S3.

    Nota

    Il campo è facoltativo per la scansione all'interno dell'account. accountId

AWS CLI
aws glue --profile demo create-crawler --debug --cli-input-json '{ "Name": "prod-test-crawler", "Role": "arn:aws:iam::111122223333:role/service-role/AWSGlueServiceRole-prod-test-run-role", "DatabaseName": "prod-run-db", "Description": "", "Targets": { "S3Targets":[ { "Path": "s3://crawl-testbucket" } ] }, "SchemaChangePolicy": { "UpdateBehavior": "LOG", "DeleteBehavior": "LOG" }, "RecrawlPolicy": { "RecrawlBehavior": "CRAWL_EVERYTHING" }, "LineageConfiguration": { "CrawlerLineageSettings": "DISABLE" }, "LakeFormationConfiguration": { "UseLakeFormationCredentials": true, "AccountId": "111122223333" }, "Configuration": { "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" }, "Tables": {"AddOrUpdateBehavior": "MergeNewColumns" } }, "Grouping": { "TableGroupingPolicy": "CombineCompatibleSchemas" } }, "CrawlerSecurityConfiguration": "", "Tags": { "KeyName": "" } }'