En utilisant la compression des données

Lorsque vous utilisez Hive pour copier des données entre différentes sources de données, vous pouvez demander la compression on-the-fly des données. Hive fournit plusieurs codecs de compression. Vous pouvez en choisir un au cours de votre session Hive. Lorsque procédez de la sorte, les données sont compressées au format spécifié.

L'exemple suivant compresse les données à l'aide de l'algorithme Lempel-Ziv-Oberhumer (LZO).


SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;
SET mapred.output.compression.codec = com.hadoop.compression.lzo.LzopCodec;

CREATE EXTERNAL TABLE lzo_compression_table (line STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
LOCATION 's3://bucketname/path/subpath/';

INSERT OVERWRITE TABLE lzo_compression_table SELECT *
FROM hiveTableName;

Le fichier obtenu dans Amazon S3 a un nom généré par le système doté du suffixe .lzo (par exemple, 8d436957-57ba-4af7-840c-96c2fc7bb6f5-000000.lzo).

Les codecs de compression disponibles sont les suivants :

org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.DefaultCodec
com.hadoop.compression.lzo.LzoCodec
com.hadoop.compression.lzo.LzopCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.SnappyCodec

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Copie de données entre DynamoDB et HDFS

Lecture de données en caractères UTF-8 non affichables