Usa i metadati Hudi per migliorare le prestazioni - Amazon Athena

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Usa i metadati Hudi per migliorare le prestazioni

Apache Hudi dispone di una tabella di metadati contenente funzionalità di indicizzazione per migliorare le prestazioni, come l'elenco dei file, il salto dei dati utilizzando le statistiche delle colonne e un indice basato sul filtro Bloom.

Di queste funzionalità Athena attualmente supporta solo l'indice di elenco dei file. L'indice di elenco dei file elimina le chiamate al file system come "list files" recuperando le informazioni da un indice che mantiene una mappatura tra partizione e file. Ciò rimuove il bisogno di elencare in modo ricorsivo ogni singola partizione nel percorso della tabella per avere una visualizzazione del file system. Quando utilizzi set di dati di grandi dimensioni, questa indicizzazione riduce drasticamente la latenza che altrimenti si verificherebbe quando si ottiene l'elenco dei file durante la scrittura e le query. Inoltre, evita colli di bottiglia come restrizioni di limiti di richiesta nelle chiamate LIST Amazon S3.

Nota

Al momento Athena non supporta il salto dei dati o l'indicizzazione del filtro Bloom.

Abilitazione della tabella di metadati Hudi

Per impostazione predefinita, l'elenco dei file basato su tabelle di metadati è disabilitato. Per abilitare la tabella di metadati Hudi e la relativa funzionalità di elenco dei file, imposta la proprietà della tabella hudi.metadata-listing-enabled su TRUE.

Esempio

L'esempio ALTER TABLE SET TBLPROPERTIES seguente abilita la tabella di metadati nella tabella di esempio partition_cow.

ALTER TABLE partition_cow SET TBLPROPERTIES('hudi.metadata-listing-enabled'='TRUE')

Usa i metadati generati da bootstrap

A partire da Apache Hudi v. 0.6.0, la funzione dell'operazione Bootstrap fornisce prestazioni migliori con i set di dati Parquet esistenti. Invece di riscrivere il set di dati, un'operazione Bootstrap può generare solo metadati, lasciando il set di dati in posizione.

Puoi usare Athena per interrogare le tabelle da un'operazione Bootstrap proprio come altre tabelle basate sui dati in Amazon S3. Nell'istruzione CREATE TABLE, specifica il percorso della tabella Hudi nella clausola LOCATION.

Per ulteriori informazioni sulla creazione di tabelle Hudi utilizzando l'operazione bootstrap in AmazonEMR, consulta l'articolo Nuove funzionalità di Apache Hudi disponibili su Amazon EMR nel AWS Big Data Blog.