Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Questa sezione include gli aspetti da considerare quando si utilizzano gli ottimizzatori di tabella all' AWS Glue Data Catalog interno di.
Formati e limitazioni supportati per la compattazione gestita dei dati
La compattazione dei dati supporta una varietà di tipi di dati e formati di compressione per la lettura e la scrittura dei dati, inclusa la lettura di dati da tabelle crittografate.
La compattazione dei dati supporta:
Crittografia: la compattazione dei dati supporta solo la crittografia Amazon S3 predefinita (SSE-S3) e la crittografia KMS lato server (SSE-KMS).
Compattazione BinPack
-
Puoi eseguire la compattazione dall'account in cui risiede il Catalogo dati quando il bucket Amazon S3 che archivia i dati sottostanti si trova in un altro account. Per eseguire questa azione, il ruolo di compattazione richiede l'accesso al bucket Amazon S3.
La compattazione dei dati attualmente non supporta:
Ordinamento regolare o con ordine z
-
Compattazione su tabelle con più account: non è possibile eseguire la compattazione su tabelle con più account.
-
Compattazione su tabelle interregionali: non è possibile eseguire la compattazione su tabelle interregionali.
Abilitazione della compattazione sui link alle risorse
-
Tabelle nella classe di storage Amazon S3 Express One Zone: non puoi eseguire la compattazione su S3 Express One Zone Iceberg Tables.
Considerazioni sulla conservazione delle istantanee e sugli ottimizzatori per l'eliminazione di file orfani
Le seguenti considerazioni si applicano agli ottimizzatori per la conservazione delle istantanee e l'eliminazione dei file orfani.
I processi di conservazione delle istantanee e di eliminazione dei file orfani hanno un limite massimo di eliminazione di 1.000.000 di file per esecuzione. Quando si eliminano le istantanee scadute, se il numero di file idonei all'eliminazione supera 1.000.000, tutti i file rimanenti oltre tale soglia continueranno a esistere nella tabella di archiviazione come file orfani.
-
Le istantanee verranno conservate dall'ottimizzatore di conservazione delle istantanee solo quando vengono soddisfatti entrambi i criteri: il numero minimo di istantanee da conservare e il periodo di conservazione specificato.
-
L'ottimizzatore di conservazione delle istantanee elimina i metadati delle istantanee scadute da Apache Iceberg, previene le query con viaggi nel tempo per le istantanee scadute e, facoltativamente, elimina i file di dati associati.
-
L'ottimizzatore per l'eliminazione dei file orfani elimina i file di dati e metadati orfani a cui non fanno più riferimento i metadati Iceberg se la loro data di creazione è precedente al periodo di conservazione dell'eliminazione dei file orfani dal momento dell'esecuzione dell'ottimizzatore.
-
Apache Iceberg facilita il controllo delle versioni tramite rami e tag, che sono puntatori denominati a stati specifici delle istantanee. Ogni ramo e tag segue il proprio ciclo di vita indipendente, regolato da politiche di conservazione definite ai rispettivi livelli. Gli AWS Glue Data Catalog ottimizzatori tengono conto di queste politiche del ciclo di vita, garantendo il rispetto delle regole di conservazione specificate. Le politiche di conservazione a livello di filiale e tag hanno la precedenza sulle configurazioni dell'ottimizzatore.
Per ulteriori informazioni, consulta la documentazione Branching and
Tagging in Apache Iceberg. -
Gli ottimizzatori per la conservazione delle istantanee e l'eliminazione dei file orfani elimineranno i file idonei alla pulizia in base ai parametri configurati. Migliora il controllo sull'eliminazione dei file implementando le politiche di controllo delle versioni e del ciclo di vita di S3 nei bucket appropriati.
Per istruzioni dettagliate sulla configurazione del controllo delle versioni e sulla creazione di regole del ciclo di vita, consulta. https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html
-
Per una corretta determinazione dei file orfani, assicurati che la posizione della tabella e gli eventuali percorsi secondari forniti non si sovrappongano o contengano dati provenienti da altre tabelle o fonti di dati. Se i percorsi si sovrappongono, si rischia una perdita irreversibile dei dati a causa dell'eliminazione involontaria dei file.