HyperLogLog schizzi

Questo argomento descrive come utilizzare gli HyperLogLog sketch in Amazon Redshift. HyperLogLog è un algoritmo per il problema del conteggio distinto, che approssima il numero di elementi distinti in un set di dati. HyperLogLog gli schizzi sono matrici di dati sull'unicità di un set di dati.

HyperLogLogè un algoritmo utilizzato per stimare la cardinalità di un multiset. Per cardinalità si intende il numero di valori distinti in un multiset. Ad esempio, nell'insieme di {4,3,6,2,2,6,4,3,6,2,2,3}, la cardinalità è 4 con valori distinti di 4, 3, 6 e 2.

La precisione dell' HyperLogLog algoritmo (nota anche come valore m) può influire sulla precisione della cardinalità stimata. Durante la stima della cardinalità, Amazon Redshift utilizza un valore di precisione di default pari a 15. Questo valore può essere fino a 26 per i set di dati più piccoli. Pertanto, l'errore relativo medio varia tra lo 0,01 e lo 0,6%.

Quando si calcola la cardinalità di un multiset, l' HyperLogLog algoritmo genera un costrutto chiamato sketch HLL. Uno schizzo HLL incapsula le informazioni sui valori distinti in un multiset. Il tipo di dati Amazon Redshift HLLSKETCH rappresenta tali valori di schizzo. Questo tipo di dati può essere utilizzato per memorizzare gli schizzi in una tabella Amazon Redshift. Inoltre, Amazon Redshift supporta operazioni che possono essere applicate ai valori HLLSKETCH come funzioni di aggregazione e scalari. È possibile utilizzare queste funzioni per estrarre la cardinalità di un HLLSKETCH e combinare più valori HLLSKETCH.

Il tipo di dati HLLSKETCH offre notevoli vantaggi in termini di prestazioni di query quando si estrae la cardinalità da set di dati di grandi dimensioni. È possibile preaggregare questi set di dati utilizzando i valori HLLSKETCH e memorizzarli nelle tabelle. Amazon Redshift può estrarre la cardinalità direttamente dai valori HLLSKETCH memorizzati senza accedere ai set di dati sottostanti.

Durante l'elaborazione degli schizzi HLL, Amazon Redshift esegue ottimizzazioni che riducono al minimo l'ingombro di memoria dello schizzo e massimizzano la precisione della cardinalità estratta. Amazon Redshift utilizza due rappresentazioni per schizzi HLL, sparse e dense. Un HLLSKETCH inizia in formato sparso. Man mano che vengono inseriti nuovi valori, le sue dimensioni aumentano. Dopo che la sua dimensione raggiunge la dimensione della rappresentazione densa, Amazon Redshift converte automaticamente lo schizzo da sparso a denso.

Amazon Redshift importa, esporta e stampa un HLLSKETCH come JSON quando lo schizzo è in un formato sparso. Amazon Redshift importa, esporta e stampa un HLLSKETCH come stringa Base64 quando lo schizzo è in un formato denso. Per ulteriori informazioni su UNLOAD, consultare Scarico del tipo di dati HLLSKETCH. Per importare dati contenenti testo o valori separati da virgola (CSV) in Amazon Redshift, utilizzare il comando COPY. Per ulteriori informazioni, consulta Caricamento del tipo di dati HLLSKETCH.

Per informazioni sulle funzioni utilizzate con, vedere. HyperLogLog HyperLogLog funzioni

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Serializzazione di JSON nidificato complesso

Considerazioni