Menggunakan kompresi data

Saat Anda menggunakan Hive untuk menyalin data di antara sumber data yang berbeda, Anda dapat meminta kompresi on-the-fly data. Hive menyediakan beberapa codec kompresi. Anda dapat memilih salah satu selama sesi Hive Anda. Jika Anda melakukannya, data dikompres dalam format yang ditentukan.

Contoh berikut mengompres data menggunakan algoritma Lempel-Ziv-Oberhumer (LZO).


SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;
SET mapred.output.compression.codec = com.hadoop.compression.lzo.LzopCodec;

CREATE EXTERNAL TABLE lzo_compression_table (line STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
LOCATION 's3://bucketname/path/subpath/';

INSERT OVERWRITE TABLE lzo_compression_table SELECT *
FROM hiveTableName;

File yang dihasilkan di Amazon S3 akan memiliki nama yang dihasilkan sistem dengan .lzo di bagian akhirnya (misalnya, 8d436957-57ba-4af7-840c-96c2fc7bb6f5-000000.lzo).

Codec kompresi yang tersedia adalah:

org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.DefaultCodec
com.hadoop.compression.lzo.LzoCodec
com.hadoop.compression.lzo.LzopCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.SnappyCodec

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menyalin data antara DynamoDB dan HDFS

Membaca data karakter UTF-8 yang tidak dapat dicetak