Prerequisiti del crawler - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Prerequisiti del crawler

Il crawler assume le autorizzazioni del ruolo AWS Identity and Access Management (IAM) specificato al momento della definizione. Questo IAM ruolo deve disporre delle autorizzazioni per estrarre dati dall'archivio dati e scriverli nel Data Catalog. La AWS Glue console elenca solo IAM i ruoli a cui è associata una politica di attendibilità per il servizio AWS Glue principale. Dalla console, puoi anche creare un IAM ruolo con una IAM policy per accedere agli archivi di dati Amazon S3 a cui accede il crawler. Per ulteriori informazioni su come specificare ruoli per AWS Glue, consulta Politiche basate sull'identità per Glue AWS.

Nota

Durante il crawling di un datastore Delta Lake, è necessario disporre delle autorizzazioni di lettura/scrittura per la posizione Amazon S3.

Per il crawler, è possibile creare un ruolo e allegare le seguenti policy:

  • La policy AWSGlueServiceRole AWS gestita, che concede le autorizzazioni richieste sul Data Catalog

  • Una policy inline che concede le autorizzazioni per l'origine dati.

  • Una politica in linea che concede l'iam:PassRoleautorizzazione per il ruolo.

Un approccio più rapido consiste nel lasciare che la procedura guidata del crawler della console AWS Glue crei un ruolo per te. Il ruolo che crea è specifico per il crawler e include la policy AWSGlueServiceRole AWS gestita più la policy in linea richiesta per l'origine dati specificata.

Se si specifica un ruolo esistente per un crawler, bisogna assicurarsi che includa la policy AWSGlueServiceRole o equivalente (o una versione ridotta di questa policy), oltre alle policy inline richieste. Ad esempio, per un archivio dati Amazon S3, la policy inline sarebbe almeno la seguente:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::bucket/object*" ] } ] }

Per un archivio dati Amazon DynamoDB, la policy sarebbe almeno la seguente:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "dynamodb:DescribeTable", "dynamodb:Scan" ], "Resource": [ "arn:aws:dynamodb:region:account-id:table/table-name*" ] } ] }

Inoltre, se il crawler legge AWS Key Management Service (AWS KMS) dati Amazon S3 crittografati, il IAM ruolo deve disporre dell'autorizzazione di decrittografia sulla chiave. AWS KMS Per ulteriori informazioni, consulta Fase 2: Creare un IAM ruolo per AWS Glue.