Gunakan metadata Hudi untuk meningkatkan kinerja - Amazon Athena

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Gunakan metadata Hudi untuk meningkatkan kinerja

Apache Hudi memiliki tabel metadata yang berisi fitur pengindeksan untuk meningkatkan kinerja seperti daftar file, melewatkan data menggunakan statistik kolom, dan indeks berbasis filter mekar.

Dari fitur-fitur ini, Athena saat ini hanya mendukung indeks daftar file. Indeks daftar file menghilangkan panggilan sistem file seperti “daftar file” dengan mengambil informasi dari indeks yang memelihara partisi ke pemetaan file. Ini menghilangkan kebutuhan untuk daftar secara rekursif setiap partisi di bawah jalur tabel untuk mendapatkan tampilan sistem file. Saat Anda bekerja dengan kumpulan data besar, pengindeksan ini secara drastis mengurangi latensi yang seharusnya terjadi saat mendapatkan daftar file selama penulisan dan kueri. Ini juga menghindari kemacetan seperti pembatasan batas permintaan pada panggilan Amazon S3. LIST

catatan

Athena tidak mendukung lompatan data atau pengindeksan filter mekar saat ini.

Mengaktifkan tabel metadata Hudi

Daftar file berbasis tabel metadata dinonaktifkan secara default. Untuk mengaktifkan tabel metadata Hudi dan fungsionalitas daftar file terkait, atur properti hudi.metadata-listing-enabled tabel ke. TRUE

Contoh

ALTER TABLE SET TBLPROPERTIESContoh berikut memungkinkan tabel metadata pada tabel contohpartition_cow.

ALTER TABLE partition_cow SET TBLPROPERTIES('hudi.metadata-listing-enabled'='TRUE')

Gunakan metadata yang dihasilkan bootstrap

Mulai di Apache Hudi versi 0.6.0, fitur operasi bootstrap memberikan performa yang lebih baik dengan set data Parquet yang ada. Sebagai ganti menulis ulang set data, operasi bootstrap dapat menghasilkan metadata saja, meninggalkan set data di tempat.

Anda dapat menggunakan Athena untuk mengkueri tabel dari operasi bootstrap seperti tabel lain berdasarkan data di Amazon S3. Di pernyataan CREATE TABLE, tentukan jalur tabel Hudi Anda di klausa LOCATION.

Untuk informasi lebih lanjut tentang membuat tabel Hudi menggunakan operasi bootstrap di AmazonEMR, lihat artikel Fitur baru dari Apache Hudi tersedia di Amazon EMR di Blog AWS Big Data.