Utilizzando la compressione dati

Quando si utilizza Hive per copiare dati tra origini dati diverse, è possibile richiedere la compressione dei dati al volo. Hive fornisce diversi codec di compressione. È possibile sceglierne uno durante la sessione di Hive. In questo modo, i dati vengono compressi nel formato specificato.

L'esempio seguente comprime i dati utilizzando l'algoritmo (LZO). Lempel-Ziv-Oberhumer


SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;
SET mapred.output.compression.codec = com.hadoop.compression.lzo.LzopCodec;

CREATE EXTERNAL TABLE lzo_compression_table (line STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
LOCATION 's3://bucketname/path/subpath/';

INSERT OVERWRITE TABLE lzo_compression_table SELECT *
FROM hiveTableName;

Il file risultante in Amazon S3 avrà un nome generato dal sistema con .lzo alla fine (ad esempio, 8d436957-57ba-4af7-840c-96c2fc7bb6f5-000000.lzo).

I codec di compressione disponibili sono:

org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.DefaultCodec
com.hadoop.compression.lzo.LzoCodec
com.hadoop.compression.lzo.LzopCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.SnappyCodec

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Copia di dati tra DynamoDB e HDFS

Lettura di dati di caratteri non stampabili UTF-8