HyperLogLog sketsa - Amazon Redshift

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

HyperLogLog sketsa

Topik ini menjelaskan cara menggunakan HyperLogLog sketsa di Amazon Redshift. HyperLogLog adalah algoritma untuk masalah hitungan-berbeda, mendekati jumlah elemen yang berbeda dalam kumpulan data. HyperLogLog sketsa adalah array data keunikan tentang kumpulan data.

HyperLogLogadalah algoritma yang digunakan untuk memperkirakan kardinalitas multiset. Kardinalitas mengacu pada jumlah nilai yang berbeda dalam multiset. Misalnya, dalam himpunan {4,3,6,2,2,6,4,3,6,2,2,3}, kardinalitas adalah 4 dengan nilai berbeda 4, 3, 6, dan 2.

Ketepatan HyperLogLog algoritma (juga dikenal sebagai nilai m) dapat mempengaruhi keakuratan estimasi kardinalitas. Selama estimasi kardinalitas, Amazon Redshift menggunakan nilai presisi default 15. Nilai ini bisa sampai 26 untuk dataset yang lebih kecil. Dengan demikian, rata-rata kesalahan relatif berkisar antara 0,01-0,6%.

Saat menghitung kardinalitas multiset, HyperLogLog algoritma menghasilkan konstruksi yang disebut sketsa. HLL Sebuah HLLsketsa merangkum informasi tentang nilai-nilai yang berbeda dalam multiset. Tipe data Amazon Redshift HLLSKETCH mewakili nilai sketsa tersebut. Tipe data ini dapat digunakan untuk menyimpan sketsa dalam tabel Amazon Redshift. Selain itu, Amazon Redshift mendukung operasi yang dapat diterapkan ke HLLSKETCH nilai sebagai fungsi agregat dan skalar. Anda dapat menggunakan fungsi-fungsi ini untuk mengekstrak kardinalitas HLLSKETCH dan menggabungkan beberapa HLLSKETCH nilai.

Tipe HLLSKETCH data menawarkan manfaat kinerja kueri yang signifikan saat mengekstraksi kardinalitas dari kumpulan data besar. Anda dapat melakukan pra-agregat kumpulan data ini menggunakan HLLSKETCH nilai dan menyimpannya dalam tabel. Amazon Redshift dapat mengekstrak kardinalitas langsung dari HLLSKETCH nilai yang disimpan tanpa mengakses kumpulan data yang mendasarinya.

Saat memproses HLL sketsa, Amazon Redshift melakukan pengoptimalan yang meminimalkan jejak memori sketsa dan memaksimalkan ketepatan kardinalitas yang diekstraksi. Amazon Redshift menggunakan dua representasi untuk HLL sketsa, jarang dan padat. HLLSKETCHDimulai dalam format jarang. Saat nilai baru dimasukkan ke dalamnya, ukurannya meningkat. Setelah ukurannya mencapai ukuran representasi padat, Amazon Redshift secara otomatis mengubah sketsa dari jarang menjadi padat.

Amazon Redshift mengimpor, mengekspor, dan mencetak HLLSKETCH seperti JSON ketika sketsa dalam format jarang. Amazon Redshift mengimpor, mengekspor, dan mencetak string HLLSKETCH sebagai Base64 saat sketsa dalam format padat. Untuk informasi lebih lanjut tentangUNLOAD, lihatMembongkar tipe HLLSKETCH data. Untuk mengimpor teks atau data value (CSV) yang dipisahkan koma ke Amazon Redshift, gunakan perintah. COPY Untuk informasi selengkapnya, lihat Memuat tipe HLLSKETCH data.

Untuk informasi tentang fungsi yang digunakan HyperLogLog, lihatHyperLogLog fungsi.