HyperLogLog schizzi - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

HyperLogLog schizzi

Questo argomento descrive come utilizzare gli HyperLogLog sketch in Amazon Redshift. HyperLogLog è un algoritmo per il problema del conteggio distinto, che approssima il numero di elementi distinti in un set di dati. HyperLogLog gli schizzi sono matrici di dati sull'unicità di un set di dati.

HyperLogLogè un algoritmo utilizzato per stimare la cardinalità di un multiset. Per cardinalità si intende il numero di valori distinti in un multiset. Ad esempio, nell'insieme di {4,3,6,2,2,6,4,3,6,2,2,3}, la cardinalità è 4 con valori distinti di 4, 3, 6 e 2.

La precisione dell' HyperLogLog algoritmo (nota anche come valore m) può influire sulla precisione della cardinalità stimata. Durante la stima della cardinalità, Amazon Redshift utilizza un valore di precisione di default pari a 15. Questo valore può essere fino a 26 per i set di dati più piccoli. Pertanto, l'errore relativo medio varia tra lo 0,01 e lo 0,6%.

Quando si calcola la cardinalità di un multiset, l' HyperLogLog algoritmo genera un costrutto chiamato schizzo. HLL Uno HLLschizzo incapsula informazioni sui valori distinti in un multiset. Il tipo di dati Amazon Redshift HLLSKETCH rappresenta tali valori di schizzo. Questo tipo di dati può essere utilizzato per memorizzare gli schizzi in una tabella Amazon Redshift. Inoltre, Amazon Redshift supporta operazioni che possono essere applicate ai HLLSKETCH valori come funzioni aggregate e scalari. Puoi utilizzare queste funzioni per estrarre la cardinalità di un HLLSKETCH e combinare più valori. HLLSKETCH

Il tipo di HLLSKETCH dati offre vantaggi significativi in termini di prestazioni di query quando si estrae la cardinalità da set di dati di grandi dimensioni. È possibile preaggregare questi set di dati utilizzando HLLSKETCH valori e archiviarli in tabelle. Amazon Redshift può estrarre la cardinalità direttamente dai HLLSKETCH valori archiviati senza accedere ai set di dati sottostanti.

Durante l'elaborazione degli HLL schizzi, Amazon Redshift esegue ottimizzazioni che riducono al minimo l'ingombro di memoria dello schizzo e massimizzano la precisione della cardinalità estratta. Amazon Redshift utilizza due rappresentazioni per gli HLL schizzi, sparse e dense. An HLLSKETCH inizia in formato sparso. Man mano che vengono inseriti nuovi valori, le sue dimensioni aumentano. Dopo che la sua dimensione raggiunge la dimensione della rappresentazione densa, Amazon Redshift converte automaticamente lo schizzo da sparso a denso.

Amazon Redshift importa, esporta e stampa un annuncio JSON quando HLLSKETCH lo schizzo è in un formato sparso. Amazon Redshift importa, esporta e stampa un file HLLSKETCH come stringa Base64 quando lo schizzo è in un formato denso. Per ulteriori informazioni su, consulta. UNLOAD Scaricamento del tipo di HLLSKETCH dati Per importare dati di testo o con valori separati da virgole (CSV) in Amazon Redshift, usa il comando. COPY Per ulteriori informazioni, consulta Caricamento del tipo di dati HLLSKETCH.

Per informazioni sulle funzioni utilizzate con, consulta. HyperLogLog HyperLogLog funzioni