Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Usa i metadati Hudi per migliorare le prestazioni
Apache Hudi dispone di una tabella di metadati
Di queste funzionalità Athena attualmente supporta solo l'indice di elenco dei file. L'indice di elenco dei file elimina le chiamate al file system come "list files" recuperando le informazioni da un indice che mantiene una mappatura tra partizione e file. Ciò rimuove il bisogno di elencare in modo ricorsivo ogni singola partizione nel percorso della tabella per avere una visualizzazione del file system. Quando utilizzi set di dati di grandi dimensioni, questa indicizzazione riduce drasticamente la latenza che altrimenti si verificherebbe quando si ottiene l'elenco dei file durante la scrittura e le query. Inoltre, evita colli di bottiglia come restrizioni di limiti di richiesta nelle chiamate LIST
Amazon S3.
Nota
Al momento Athena non supporta il salto dei dati o l'indicizzazione del filtro Bloom.
Abilitazione della tabella di metadati Hudi
Per impostazione predefinita, l'elenco dei file basato su tabelle di metadati è disabilitato. Per abilitare la tabella di metadati Hudi e la relativa funzionalità di elenco dei file, imposta la proprietà della tabella hudi.metadata-listing-enabled
su TRUE
.
Esempio
L'esempio ALTER TABLE SET TBLPROPERTIES
seguente abilita la tabella di metadati nella tabella di esempio partition_cow
.
ALTER TABLE partition_cow SET TBLPROPERTIES('hudi.metadata-listing-enabled'='TRUE')
Usa i metadati generati da bootstrap
A partire da Apache Hudi v. 0.6.0, la funzione dell'operazione Bootstrap fornisce prestazioni migliori con i set di dati Parquet esistenti. Invece di riscrivere il set di dati, un'operazione Bootstrap può generare solo metadati, lasciando il set di dati in posizione.
Puoi usare Athena per interrogare le tabelle da un'operazione Bootstrap proprio come altre tabelle basate sui dati in Amazon S3. Nell'istruzione CREATE TABLE
, specifica il percorso della tabella Hudi nella clausola LOCATION
.
Per ulteriori informazioni sulla creazione di tabelle Hudi utilizzando l'operazione bootstrap in AmazonEMR, consulta l'articolo Nuove funzionalità di Apache Hudi disponibili su Amazon EMR nel AWS Big Data