Prerequisiti del crawler

Modalità Focus

Prerequisiti del crawler - AWS Glue

Il crawler presuppone le autorizzazioni del ruolo AWS Identity and Access Management (IAM) specificato al momento della definizione. Questo ruolo IAM deve avere le autorizzazioni necessarie per estrarre dati dall'archivio dati e scriverli nel catalogo dati. Il AWS Glue la console elenca solo i ruoli IAM a cui è associata una policy di fiducia per AWS Glue servizio principale. Dalla console puoi anche creare un ruolo IAM con una policy IAM per accedere ad archivi dati Amazon S3 cui accede il crawler. Per ulteriori informazioni sull'assegnazione di ruoli per AWS Glue, consulta Politiche basate sull'identità per Glue AWS.

Nota

Durante il crawling di un datastore Delta Lake, è necessario disporre delle autorizzazioni di lettura/scrittura per la posizione Amazon S3.

Per il crawler, è possibile creare un ruolo e allegare le seguenti policy:

La politica AWSGlueServiceRole AWS gestita, che concede le autorizzazioni richieste sul Data Catalog
Una policy inline che concede le autorizzazioni per l'origine dati.
Una politica in linea che concede l'iam:PassRoleautorizzazione per il ruolo.

Un approccio più rapido consiste nel lasciare che AWS Glue console crawler wizard crei un ruolo per te. Il ruolo che crea è specifico per il crawler e include la politica AWSGlueServiceRole AWS gestita più la politica in linea richiesta per l'origine dati specificata.

Se si specifica un ruolo esistente per un crawler, bisogna assicurarsi che includa la policy AWSGlueServiceRole o equivalente (o una versione ridotta di questa policy), oltre alle policy inline richieste. Ad esempio, per un archivio dati Amazon S3, la policy inline sarebbe almeno la seguente:


{
   "Version": "2012-10-17",
    "Statement": [
        {
          "Effect": "Allow",
          "Action": [
              "s3:GetObject"
          ],
          "Resource": [
              "arn:aws:s3:::bucket/object*"
          ]
        }
    ]
}

Per un archivio dati Amazon DynamoDB, la policy sarebbe almeno la seguente:


{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "dynamodb:DescribeTable",
        "dynamodb:Scan"
      ],
      "Resource": [
        "arn:aws:dynamodb:region:account-id:table/table-name*"
      ]
    }
  ]
}

Inoltre, se il crawler legge AWS Key Management Service (AWS KMS) dati Amazon S3 crittografati, il ruolo IAM deve disporre dell'autorizzazione di decrittografia sulla chiave. AWS KMS Per ulteriori informazioni, consulta Fase 2: Creare un ruolo IAM per AWS Glue.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Fonti di dati supportate per la scansione

Definizione e gestione dei classificatori

Argomento successivo:

Definizione e gestione dei classificatori

Argomento precedente:

Fonti di dati supportate per la scansione

Hai bisogno di aiuto?

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie