Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Abilitazione dell'ottimizzatore di conservazione degli snapshot
Puoi utilizzare la AWS Glue console AWS CLI, o AWS API abilitare gli ottimizzatori di conservazione degli snapshot per le tabelle Apache Iceberg presenti nel Catalogo dati. Per le nuove tabelle, puoi scegliere Apache Iceberg come formato di tabella e abilitare l'ottimizzatore di conservazione degli snapshot quando crei la tabella. La conservazione degli snapshot è disabilitata per impostazione predefinita per le nuove tabelle.
- Console
-
Per abilitare l'ottimizzatore della conservazione delle istantanee
-
Apri la AWS Glue console all'indirizzo https://console.aws.amazon.com/glue/e accedi come amministratore del data lake, creatore della tabella o utente a cui sono state glue:UpdateTable
concesse le lakeformation:GetDataAccess
autorizzazioni sulla tabella.
-
Nel pannello di navigazione, in Catalogo dati, seleziona Tabelle.
Nella pagina Tabelle, scegli una tabella Iceberg per la quale desideri abilitare l'ottimizzatore della conservazione delle istantanee, quindi nel menu Azioni, scegli Abilita in Ottimizzazione.
Puoi anche abilitare l'ottimizzazione selezionando la tabella e aprendo la pagina dei Dettagli della tabella. Scegli la scheda Ottimizzazione della tabella nella sezione inferiore della pagina e scegli Abilita la conservazione delle istantanee.
-
Nella pagina Abilita ottimizzazione, in Configurazione dell'ottimizzazione, sono disponibili due opzioni: Usa l'impostazione predefinita o Personalizza le impostazioni. Se si sceglie di utilizzare le impostazioni predefinite, AWS Glue utilizza le proprietà definite nella configurazione della tabella Iceberg per determinare il periodo di conservazione delle istantanee e il numero di istantanee da conservare. In assenza di questa configurazione, AWS Glue conserva un'istantanea per cinque giorni ed elimina i file associati alle istantanee scadute.
-
Quindi, scegli un IAM ruolo che AWS Glue può assumere per tuo conto per eseguire l'ottimizzatore. Per i dettagli sulle autorizzazioni richieste per il IAM ruolo, consulta la Prerequisiti per l'ottimizzazione delle tabelle sezione.
Segui la procedura riportata di seguito per aggiornare un IAM ruolo esistente:
-
Per aggiornare la politica di autorizzazione per il IAM ruolo, nella IAM console, vai al IAM ruolo utilizzato per eseguire la compattazione.
-
Nella sezione Autorizzazioni, scegli Aggiungi policy bucket. Nella finestra del browser appena aperta, crea una nuova policy da utilizzare con il tuo ruolo.
Nella pagina Crea policy scegliere la JSON scheda. Copia il JSON codice mostrato nei Prerequisiti nel campo dell'editor delle policy.
-
Se preferisci impostare manualmente i valori per la configurazione di conservazione delle istantanee, scegli Personalizza impostazioni.
-
Scegli la casella Applica il IAM ruolo selezionato agli ottimizzatori selezionati per utilizzare un singolo IAM ruolo per tutti, abilitando tutti gli ottimizzatori.
-
Se disponi di configurazioni di policy di sicurezza in cui l'ottimizzatore di tabelle Iceberg deve accedere ai bucket Amazon S3 da uno specifico Virtual Private Cloud (VPC), creare una connessione di AWS Glue rete o utilizzarne una esistente.
Se non hai già configurato una AWS Glue VPC connessione, creane una nuova seguendo i passaggi nella sezione Creazione di connessioni per i connettori utilizzando la AWS Glue console o/. AWS CLI SDK
Successivamente, in Configurazione di conservazione delle istantanee, scegli di utilizzare i valori specificati nella configurazione della tabella Iceberg o specifica valori personalizzati per il periodo di conservazione delle istantanee (history.expire). max-snapshot-age-ms) e numero minimo di istantanee (history.expire). min-snapshots-to-keep) da conservare.
-
Scegliete Elimina file associati per eliminare i file sottostanti quando l'ottimizzatore di tabella elimina le vecchie istantanee dai metadati della tabella.
Se non scegli questa opzione, quando le istantanee più vecchie vengono rimosse dai metadati della tabella, i file associati rimarranno nell'archivio come file orfani.
-
Quindi, leggi l'avviso di avvertenza e scegli Confermo per procedere.
Nel Data Catalog, lo snapshot retention optimizer rispetta il ciclo di vita controllato da policy di conservazione a livello di filiale e tag. Per ulteriori informazioni, consulta la sezione Branching and tagging nella documentazione Iceberg.
-
Rivedi la configurazione e scegli Abilita ottimizzazione.
Attendi qualche minuto che l'ottimizzatore di conservazione venga eseguito e le vecchie istantanee scadano in base alla configurazione.
- AWS CLI
-
Per abilitare la conservazione delle istantanee per le nuove tabelle Iceberg in AWS Glue, devi creare un ottimizzatore di tabelle di tipo retention
e impostare il campo su in. enabled
true
table-optimizer-configuration
È possibile farlo utilizzando il AWS CLI comando o. create-table-optimizer
update-table-optimizer
Inoltre, è necessario specificare i campi di configurazione della conservazione numberOfSnapshotsToRetain
in base alle proprie esigenze. snapshotRetentionPeriodInDays
L'esempio seguente mostra come abilitare l'ottimizzatore della conservazione degli snapshot. Sostituisci l'ID dell'account con un ID AWS dell'account valido. Sostituisci il nome del database e della tabella con quello effettivo della tabella Iceberg e del database. Sostituisci roleArn
con il nome della AWS risorsa (ARN) del IAM ruolo e il nome del IAM ruolo che dispone delle autorizzazioni necessarie per eseguire lo snapshot retention optimizer.
aws glue create-table-optimizer \
--catalog-id 123456789012
\
--database-name iceberg_db
\
--table-name iceberg_table
\
--table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012
:role/optimizer_role
","enabled":'true', "vpcConfiguration":{
"glueConnectionName":"glue_connection_name"
}, "retentionConfiguration":{"icebergConfiguration":{"snapshotRetentionPeriodInDays":7
,"numberOfSnapshotsToRetain":3
,"cleanExpiredFiles":'true'
}}}'\
--type retention
Questo comando crea un ottimizzatore di conservazione per la tabella Iceberg specificata nel catalogo, nel database e nella regione specificati. table-optimizer-configurationspecifica il IAM ruolo ARN da utilizzare, abilita l'ottimizzatore e imposta la configurazione di conservazione. In questo esempio, conserva le istantanee per 7 giorni, conserva almeno 3 istantanee e pulisce i file scaduti.
-
snapshotRetentionPeriodInDays —Il numero di giorni in cui conservare le istantanee prima della loro scadenza. Il valore predefinito è 5
.
-
numberOfSnapshotsToRetain — Il numero minimo di istantanee da conservare, anche se sono più vecchie del periodo di conservazione. Il valore predefinito è 1
.
-
cleanExpiredFiles — Un valore booleano che indica se eliminare i file di dati scaduti dopo la scadenza delle istantanee. Il valore predefinito è true
.
Se impostato su true, le istantanee più vecchie vengono rimosse dai metadati della tabella e i relativi file sottostanti vengono eliminati. Se questo parametro è impostato su false, le istantanee più vecchie vengono rimosse dai metadati della tabella ma i relativi file sottostanti rimangono nell'archivio come file orfani.
- AWS API
-
CreateTableOptimizerOperazione di chiamata per abilitare l'ottimizzatore della conservazione delle istantanee per una tabella.
Dopo aver abilitato la compattazione, la scheda di Ottimizzazione della tabella mostra i seguenti dettagli di compattazione, dopo circa 15-20 minuti:
- Ora di inizio
-
L'ora in cui è stato avviato l'ottimizzatore per la conservazione degli snapshot. Il valore è un timestamp in UTC formato temporale.
- Tempo di esecuzione
-
L'ora indica il tempo impiegato dall'ottimizzatore per completare l'operazione. Il valore è un timestamp in UTC formato temporale.
- Stato
-
Lo stato dell'esecuzione dell'ottimizzatore. I valori sono esito positivo o negativo.
- File di dati eliminati
Numero totale di file eliminati.
- File manifesto eliminati
-
Numero totale di file manifest eliminati.
- Elenchi manifesti eliminati
-
Numero totale di elenchi di manifesti eliminati.