Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memuat file data
File sumber-data datang dalam format yang berbeda dan menggunakan berbagai algoritma kompresi. Saat memuat data dengan COPY perintah, Amazon Redshift memuat semua file yang direferensikan oleh awalan bucket Amazon S3. (Awalan adalah string karakter di awal nama kunci objek.) Jika awalan mengacu pada beberapa file atau file yang dapat dibagi, Amazon Redshift memuat data secara paralel, memanfaatkan arsitektur Amazon Redshift. MPP Ini membagi beban kerja di antara node di cluster. Sebaliknya, saat Anda memuat data dari file yang tidak dapat dibagi, Amazon Redshift dipaksa untuk melakukan pemuatan serial, yang jauh lebih lambat. Bagian berikut menjelaskan cara yang disarankan untuk memuat berbagai jenis file ke Amazon Redshift, tergantung pada format dan kompresi mereka.
Memuat data dari file yang dapat dibagi
File-file berikut dapat secara otomatis dibagi ketika data mereka dimuat:
file yang tidak terkompresi CSV
CSVfile yang dikompresi dengan BZIP
berkas kolumnar (Parket/) ORC
Amazon Redshift secara otomatis membagi file 128MB atau lebih besar menjadi beberapa bagian. File kolumnar, khususnya Parket danORC, tidak dibagi jika kurang dari 128MB. Redshift menggunakan irisan yang bekerja secara paralel untuk memuat data. Ini memberikan kinerja beban yang cepat.
Memuat data dari file yang tidak dapat dibagi
Jenis file sepertiJSON, atauCSV, ketika dikompresi dengan algoritma kompresi lain, sepertiGZIP, tidak secara otomatis dibagi. Untuk ini, kami sarankan untuk membagi data secara manual menjadi beberapa file yang lebih kecil yang ukurannya dekat, dari 1 MB hingga 1 GB setelah kompresi. Selain itu, buat jumlah file kelipatan dari jumlah irisan di cluster Anda. Untuk informasi selengkapnya tentang cara membagi data menjadi beberapa file dan contoh pemuatan data yang digunakanCOPY, lihat Memuat data dari Amazon S3.