Mengoptimalkan kinerja kueri menggunakan statistik kolom - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengoptimalkan kinerja kueri menggunakan statistik kolom

Anda dapat menghitung statistik tingkat kolom untuk AWS Glue Data Catalog tabel dalam format data seperti Parket,,,,, ORC JSON IONCSV, dan XML tanpa menyiapkan pipeline data tambahan. Statistik kolom membantu Anda memahami profil data dengan mendapatkan wawasan tentang nilai dalam kolom.

Data Catalog mendukung menghasilkan statistik untuk nilai kolom seperti nilai minimum, nilai maksimum, total nilai nol, total nilai yang berbeda, panjang rata-rata nilai, dan total kemunculan nilai sebenarnya. AWS layanan analisis seperti Amazon Redshift dan Amazon Athena dapat menggunakan statistik kolom ini untuk menghasilkan rencana eksekusi kueri, dan memilih paket optimal yang meningkatkan kinerja kueri.

Ada dua skenario untuk menghasilkan statistik kolom:

Dijadwalkan

AWS Glue mendukung penjadwalan pembuatan statistik kolom sehingga dapat dijalankan secara otomatis pada jadwal berulang.

Dengan perhitungan statistik terjadwal, tugas statistik kolom memperbarui statistik tingkat tabel secara keseluruhan, seperti min, max, dan avg dengan statistik baru, menyediakan mesin kueri yang akurat dan up-to-date statistik untuk mengoptimalkan eksekusi kueri.

Sesuai permintaan

Gunakan opsi ini untuk menghasilkan statistik kolom sesuai permintaan kapan pun diperlukan. Ini berguna untuk analisis ad-hoc atau ketika statistik perlu dihitung segera.

Anda dapat mengonfigurasi untuk menjalankan tugas pembuatan statistik kolom menggunakan AWS Glue konsol, AWS CLI, dan AWS Glue API operasi. Saat Anda memulai proses, AWS Glue mulai pekerjaan Spark di latar belakang dan perbarui metadata AWS Glue tabel di Katalog Data. Anda dapat melihat statistik kolom menggunakan AWS Glue konsol AWS CLI atau atau dengan memanggil GetColumnStatisticsForTableAPIoperasi.

catatan

Jika Anda menggunakan izin Lake Formation untuk mengontrol akses ke tabel, peran yang diasumsikan oleh tugas statistik kolom memerlukan akses tabel penuh untuk menghasilkan statistik.

Video berikut menunjukkan cara meningkatkan kinerja kueri menggunakan statistik kolom.