Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
En utilisant la compression des données
Lorsque vous utilisez Hive pour copier des données entre différentes sources de données, vous pouvez demander la compression on-the-fly des données. Hive fournit plusieurs codecs de compression. Vous pouvez en choisir un au cours de votre session Hive. Lorsque procédez de la sorte, les données sont compressées au format spécifié.
L'exemple suivant compresse les données à l'aide de l'algorithme Lempel-Ziv-Oberhumer (LZO).
SET hive.exec.compress.output=true; SET io.seqfile.compression.type=BLOCK; SET mapred.output.compression.codec = com.hadoop.compression.lzo.LzopCodec; CREATE EXTERNAL TABLE
lzo_compression_table
(line STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' LOCATION 's3://bucketname/path/subpath/
'; INSERT OVERWRITE TABLElzo_compression_table
SELECT * FROMhiveTableName
;
Le fichier obtenu dans Amazon S3 a un nom généré par le système doté du suffixe .lzo
(par exemple, 8d436957-57ba-4af7-840c-96c2fc7bb6f5-000000.lzo
).
Les codecs de compression disponibles sont les suivants :
-
org.apache.hadoop.io.compress.GzipCodec
-
org.apache.hadoop.io.compress.DefaultCodec
-
com.hadoop.compression.lzo.LzoCodec
-
com.hadoop.compression.lzo.LzopCodec
-
org.apache.hadoop.io.compress.BZip2Codec
-
org.apache.hadoop.io.compress.SnappyCodec