Utilizzo delle tabelle del catalogo dati per l'origine dati - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo delle tabelle del catalogo dati per l'origine dati

Per tutte le fonti di dati tranne Amazon S3 e i connettori, deve esistere una tabella nel AWS Glue Data Catalog per il tipo di fonte scelto. AWS Glue non crea la tabella Data Catalog.

Per configurare un nodo di origine dati basato su una tabella del catalogo dati
  1. Vai all'editor visivo per un processo nuovo o salvato.

  2. Scegli un nodo di origine dati nel diagramma del processo.

  3. Seleziona la scheda Data source properties (Proprietà dell'origine dati), quindi immetti le informazioni riportate di seguito:

    • Tipo di fonte S3: (solo per le origini dati Amazon S3) Scegli l'opzione Seleziona una tabella del catalogo per utilizzare una tabella esistente AWS Glue Data Catalog tabella.

    • Database: scegli il database nel catalogo dati contenente la tabella di origine da utilizzare per questo processo. Puoi utilizzare il campo di ricerca per cercare un database per nome.

    • Table (Tabella): scegli dall'elenco la tabella associata ai dati di origine. Questa tabella deve essere già presente inAWS Glue Data Catalog. È possibile utilizzare il campo di ricerca per cercare una tabella in base al nome.

    • Partition predicate (Predicato di partizione): (solo per origini dati Amazon S3) inserisci un'espressione booleana basata su Spark SQL che includa solo le colonne di partizionamento. Ad esempio: "(year=='2020' and month=='04')"

    • Temporary directory (Directory temporanea): (solo per le origini dati Amazon Redshift) inserisci un percorso per la posizione di una directory di processo in Amazon S3 in cui il processo ETL può scrivere risultati intermedi temporanei.

    • Role associated with the cluster (Ruolo associato al cluster): (solo per le origini dati Amazon Redshift) inserisci un ruolo da utilizzare per il processo ETL che contiene le autorizzazioni per i cluster Amazon Redshift . Per ulteriori informazioni, consulta Autorizzazioni origine dati e destinazione dati.