HyperLogLog sketsa

Topik ini menjelaskan cara menggunakan HyperLogLog sketsa di Amazon Redshift. HyperLogLog adalah algoritma untuk masalah hitungan-berbeda, mendekati jumlah elemen yang berbeda dalam kumpulan data. HyperLogLog sketsa adalah array data keunikan tentang kumpulan data.

HyperLogLogadalah algoritma yang digunakan untuk memperkirakan kardinalitas multiset. Kardinalitas mengacu pada jumlah nilai yang berbeda dalam multiset. Misalnya, dalam himpunan {4,3,6,2,2,6,4,3,6,2,2,3}, kardinalitas adalah 4 dengan nilai berbeda 4, 3, 6, dan 2.

Ketepatan HyperLogLog algoritma (juga dikenal sebagai nilai m) dapat mempengaruhi keakuratan estimasi kardinalitas. Selama estimasi kardinalitas, Amazon Redshift menggunakan nilai presisi default 15. Nilai ini bisa sampai 26 untuk dataset yang lebih kecil. Dengan demikian, rata-rata kesalahan relatif berkisar antara 0,01-0,6%.

Saat menghitung kardinalitas multiset, HyperLogLog algoritma menghasilkan konstruksi yang disebut sketsa HLL. Sketsa HLL merangkum informasi tentang nilai-nilai yang berbeda dalam multiset. Tipe data Amazon Redshift HLLSKETCH mewakili nilai sketsa tersebut. Tipe data ini dapat digunakan untuk menyimpan sketsa dalam tabel Amazon Redshift. Selain itu, Amazon Redshift mendukung operasi yang dapat diterapkan ke nilai HLLSKETCH sebagai fungsi agregat dan skalar. Anda dapat menggunakan fungsi-fungsi ini untuk mengekstrak kardinalitas HLLSKETCH dan menggabungkan beberapa nilai HLLSKETCH.

Tipe data HLLSKETCH menawarkan manfaat kinerja kueri yang signifikan saat mengekstraksi kardinalitas dari kumpulan data besar. Anda dapat melakukan pra-agregat kumpulan data ini menggunakan nilai HLLSKETCH dan menyimpannya dalam tabel. Amazon Redshift dapat mengekstrak kardinalitas langsung dari nilai HLLSKETCH yang disimpan tanpa mengakses kumpulan data yang mendasarinya.

Saat memproses sketsa HLL, Amazon Redshift melakukan pengoptimalan yang meminimalkan jejak memori sketsa dan memaksimalkan ketepatan kardinalitas yang diekstraksi. Amazon Redshift menggunakan dua representasi untuk sketsa HLL, jarang dan padat. HLLSKETCH dimulai dalam format jarang. Saat nilai baru dimasukkan ke dalamnya, ukurannya meningkat. Setelah ukurannya mencapai ukuran representasi padat, Amazon Redshift secara otomatis mengubah sketsa dari jarang menjadi padat.

Amazon Redshift mengimpor, mengekspor, dan mencetak HLLSKETCH sebagai JSON saat sketsa dalam format jarang. Amazon Redshift mengimpor, mengekspor, dan mencetak HLLSKETCH sebagai string Base64 saat sketsa dalam format padat. Untuk informasi selengkapnya tentang UNLOAD, lihatMembongkar tipe data HLLSKETCH. Untuk mengimpor data teks atau nilai dipisahkan koma (CSV) ke Amazon Redshift, gunakan perintah COPY. Untuk informasi selengkapnya, lihat Memuat tipe data HLLSKETCH.

Untuk informasi tentang fungsi yang digunakan HyperLogLog, lihatHyperLogLog fungsi.

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Serialisasi JSON bersarang kompleks

Pertimbangan-pertimbangan