Attivazione dell'eliminazione di file orfani - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Attivazione dell'eliminazione di file orfani

È possibile utilizzare… AWS Glue console, AWS CLI, oppure AWS APIper abilitare l'eliminazione di file orfani per le tabelle Apache Iceberg nel Data Catalog. Per le nuove tabelle, puoi scegliere Apache Iceberg come formato di tabella e abilitare l'ottimizzatore per l'eliminazione dei file orfani quando crei la tabella. La conservazione delle istantanee è disattivata per impostazione predefinita per le nuove tabelle.

Console
Per abilitare l'eliminazione di file orfani
  1. Aprire il AWS Glue console all'indirizzo https://console.aws.amazon.com/glue/e accedi come amministratore del data lake, creatore della tabella o utente a cui sono state glue:UpdateTable concesse le lakeformation:GetDataAccess autorizzazioni e sulla tabella.

  2. Nel pannello di navigazione, in Catalogo dati, seleziona Tabelle.

  3. Nella pagina Tabelle, scegli una tabella Iceberg in cui desideri abilitare l'eliminazione dei file orfani.

    Scegli la scheda Ottimizzazione della tabella nella parte inferiore della pagina e scegli Abilita l'eliminazione dei file orfani da Azioni.

    Puoi anche scegliere Abilita in Ottimizzazione dal menu Azioni situato nell'angolo in alto a destra della pagina.

  4. Nella pagina Abilita ottimizzazione, scegli Eliminazione di file orfani in Opzioni di ottimizzazione.

  5. Se scegli di utilizzare le impostazioni predefinite, tutti i file orfani verranno eliminati dopo 3 giorni. Se desideri conservare i file orfani per un numero specifico di giorni, scegli Personalizza impostazioni.

  6. Quindi, scegli un IAM ruolo con le autorizzazioni necessarie per eliminare i file orfani.

  7. Se scegli Personalizza impostazioni, inserisci il numero di giorni in cui conservare i file prima dell'eliminazione nella sezione Configurazione per l'eliminazione dei file orfani.

  8. Scegli Abilita ottimizzazione.

AWS CLI

Per abilitare l'eliminazione di file orfani per una tabella Iceberg in AWS Glue, è necessario creare un ottimizzatore di tabella di tipo orphan_file_deletion e impostare il enabled campo su true. Per creare un ottimizzatore di eliminazione di file orfano per una tabella Iceberg utilizzando il AWS CLI, puoi usare il seguente comando:

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":true,"orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3, "location":'S3 location'}}}'\ --type orphan_file_deletion

Questo comando crea un ottimizzatore di eliminazione di file orfano per la tabella Iceberg specificata. I parametri chiave sono:

  • roleArn — il ARN IAM ruolo con i permessi per accedere al bucket S3 e alle risorse Glue.

  • enabled: imposta su true per abilitare l'ottimizzatore.

  • orphanFileRetentionPeriodInDays — Il numero di giorni per conservare i file orfani prima di eliminarli (minimo 1 giorno).

  • type — Imposta su orphan_file_delete per creare un ottimizzatore per l'eliminazione dei file orfani.

Dopo aver creato l'ottimizzatore di tabelle, eseguirà periodicamente l'eliminazione dei file orfani (una volta al giorno se lasciato abilitato). È possibile controllare le esecuzioni utilizzando il. list-table-optimizer-runs API Il processo di eliminazione dei file orfani identificherà ed eliminerà i file che non sono tracciati nei metadati Iceberg della tabella.

API

CreateTableOptimizerOperazione di chiamata per creare l'ottimizzatore di eliminazione dei file orfani per una tabella specifica.