Configurando um rastreador para usar as credenciais do Lake Formation - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurando um rastreador para usar as credenciais do Lake Formation

Você pode configurar um rastreador para usar AWS Lake Formation credenciais para acessar um armazenamento de dados do Amazon S3 ou uma tabela do catálogo de dados com uma localização subjacente do Amazon S3 dentro do mesmo ou de outro. Conta da AWS Conta da AWS Você pode configurar uma tabela existente do Data Catalog como o destino do crawler, se o crawler e a tabela do Data Catalog residirem na mesma conta. No momento, é permitido ter somente um destino de catálogo com apenas uma tabela de catálogo ao usar uma tabela do Data Catalog como destino do crawler.

nota

Ao definir uma tabela do Data Catalog como um destino de crawler, certifique-se de que a localização subjacente da tabela do Data Catalog seja um local do Amazon S3. Os crawlers que usam credenciais do Lake Formation são compatíveis somente com destinos do Data Catalog com localizações subjacentes do Amazon S3.

Configuração exigida quando o crawler e a localização registrada do Amazon S3 ou a tabela do Data Catalog residem na mesma conta (crawling na conta)

Para permitir que o crawler acesse um datastore ou uma tabela do Data Catalog usando as credenciais do Lake Formation, você precisa registrar a localização dos dados com o Lake Formation. Além disso, a IAM função do rastreador deve ter permissões para ler os dados do destino em que o bucket do Amazon S3 está registrado.

Você pode concluir as etapas de configuração a seguir usando o AWS Management Console ou AWS Command Line Interface (AWS CLI).

AWS Management Console
  1. Antes de configurar um crawler para acessar a fonte do crawler, registre a localização dos dados do datastore ou do Data Catalog com o Lake Formation. No console do Lake Formation (https://console.aws.amazon.com/lakeformation/), registre uma localização do Amazon S3 como a localização raiz do seu data lake no local em Conta da AWS que o rastreador está definido. Para obter mais informações, consulte Registering an Amazon S3 location (Registrar um local do Amazon S3).

  2. Conceda permissões de localização de dados à IAM função usada na execução do rastreador para que o rastreador possa ler os dados do destino em Lake Formation. Para obter mais informações, consulte Granting data location permissions (same account) (Conceder permissões de localização de dados [mesma conta]).

  3. Conceda permissões de acesso ao perfil do crawler (Create) para o banco de dados, que é especificado como o banco de dados de saída. Para obter mais informações, consulte Granting database permissions using the Lake Formation console and the named resource method (Conceder permissões de banco de dados usando o console do Lake Formation e o método de recurso nomeado).

  4. No IAM console (https://console.aws.amazon.com/iam/), crie uma IAM função para o rastreador. Adicione a política lakeformation:GetDataAccess ao perfil.

  5. No AWS Glue console (https://console.aws.amazon.com/glue/), ao configurar o rastreador, selecione a opção Usar credenciais do Lake Formation para rastrear a fonte de dados do Amazon S3.

    nota

    O accountId campo é opcional para rastreamento na conta.

AWS CLI
aws glue --profile demo create-crawler --debug --cli-input-json '{ "Name": "prod-test-crawler", "Role": "arn:aws:iam::111122223333:role/service-role/AWSGlueServiceRole-prod-test-run-role", "DatabaseName": "prod-run-db", "Description": "", "Targets": { "S3Targets":[ { "Path": "s3://crawl-testbucket" } ] }, "SchemaChangePolicy": { "UpdateBehavior": "LOG", "DeleteBehavior": "LOG" }, "RecrawlPolicy": { "RecrawlBehavior": "CRAWL_EVERYTHING" }, "LineageConfiguration": { "CrawlerLineageSettings": "DISABLE" }, "LakeFormationConfiguration": { "UseLakeFormationCredentials": true, "AccountId": "111122223333" }, "Configuration": { "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" }, "Tables": {"AddOrUpdateBehavior": "MergeNewColumns" } }, "Grouping": { "TableGroupingPolicy": "CombineCompatibleSchemas" } }, "CrawlerSecurityConfiguration": "", "Tags": { "KeyName": "" } }'