Memuat data di Amazon Redshift - Amazon Redshift

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memuat data di Amazon Redshift

Ada beberapa cara untuk memuat data ke dalam database Amazon Redshift. Salah satu sumber data yang populer untuk dimuat adalah file Amazon S3. Tabel berikut merangkum beberapa metode yang akan digunakan mulai dari sumber Amazon S3.

Metode untuk menggunakan Deskripsi Ketika metode yang dibutuhkan

Perintah SALIN

Menjalankan konsumsi file batch untuk memuat data dari file Amazon S3 Anda. Metode ini memanfaatkan kemampuan pemrosesan paralel Amazon Redshift. Untuk informasi selengkapnya, lihat Memuat tabel dengan perintah COPY.

Harus digunakan ketika persyaratan pemuatan data dasar untuk memulai konsumsi file batch secara manual diperlukan. Metode ini sebagian besar digunakan dengan pipeline konsumsi file kustom dan pihak ketiga atau beban kerja konsumsi file satu kali, atau ad hoc.

SALIN... CREATE JOB perintah (auto-copy)

Menjalankan perintah COPY Anda secara otomatis saat file baru dibuat di jalur Amazon S3 yang dilacak. Untuk informasi selengkapnya, lihat Buat integrasi acara S3 untuk menyalin file secara otomatis dari bucket Amazon S3.

Harus digunakan saat pipeline konsumsi file perlu secara otomatis menyerap data saat file baru dibuat di Amazon S3. Amazon Redshift melacak file yang tertelan untuk mencegah duplikasi data. Metode ini memerlukan konfigurasi oleh pemilik bucket Amazon S3.

Muat dari kueri data lake

Buat tabel eksternal untuk menjalankan kueri data lake pada file Amazon S3 Anda dan kemudian jalankan perintah INSERT INTO untuk memuat hasil dari kueri data lake Anda ke tabel lokal. Untuk informasi selengkapnya, lihat Tabel eksternal untuk Redshift Spectrum.

Harus digunakan dalam salah satu skenario berikut:

  • AWS Glue Memuat dari dan membuka format tabel (seperti Apache Iceberg, Apache Hudi, atau Delta Lake).

  • File sumber perlu dicerna sebagian (misalnya, diperlukan untuk menjalankan klausa WHERE untuk menelan baris tertentu).

  • Lebih banyak fleksibilitas diperlukan untuk menyerap kolom tertentu (seperti menjalankan perintah SELECT) atau melakukan transformasi data dasar saat bepergian (seperti menerapkan operasi dasar atau memanggil UDFs nilai dari file sumber).

Metode lain yang dapat Anda pertimbangkan

Streaming konsumsi

Penyerapan streaming menyediakan konsumsi data streaming berkecepatan tinggi dengan latensi rendah dan berkecepatan tinggi dari Amazon Kinesis Data Streams dan Amazon Managed Streaming untuk Apache Kafka Kafka ke tampilan terwujud Amazon Redshift atau Redshift Tanpa Server. Untuk informasi selengkapnya, silakan lihat Memulai dengan konsumsi streaming dari Amazon Kinesis Data Streams dan Memulai dengan konsumsi streaming dari sumber Apache Kafka.

Harus dipertimbangkan untuk kasus penggunaan ketika data pertama kali dialirkan ke file di Amazon S3 dan kemudian dimuat dari Amazon S3. Jika menyimpan data di Amazon S3 tidak diperlukan, Anda sering dapat mempertimbangkan streaming data Anda langsung ke Amazon Redshift.

Menjalankan kueri data lake

Menjalankan kueri langsung dari tabel data lake alih-alih menelan isi tabel ke dalam tabel lokal. Untuk informasi selengkapnya, lihat Amazon Redshift Spectrum.

Harus digunakan ketika kasus penggunaan tidak memerlukan kinerja kueri tabel lokal di Amazon Redshift.

Pemuatan batch menggunakan editor kueri Amazon Redshift v2

Anda dapat menyiapkan dan menjalankan beban kerja penyerapan file batch secara visual di editor kueri Amazon Redshift v2. Untuk informasi selengkapnya, lihat Memuat data dari S3 di Panduan Manajemen Amazon Redshift.

Harus digunakan ketika Anda ingin editor kueri v2 untuk menyiapkan pernyataan COPY dan Anda ingin alat visual untuk menyederhanakan proses persiapan pernyataan COPY.

Memuat data dari file lokal menggunakan editor kueri Amazon Redshift v2

Anda dapat langsung mengunggah file dari desktop Anda ke tabel Amazon Redshift tanpa perlu mengunggah file Anda secara manual ke Amazon S3. Untuk informasi selengkapnya, lihat Memuat data dari penyiapan dan alur kerja file lokal di Panduan Manajemen Amazon Redshift.

Harus digunakan ketika Anda perlu memuat file dengan cepat dari komputer lokal Anda untuk tujuan kueri satu kali. Dengan metode ini, editor kueri Amazon Redshift v2 untuk sementara menyimpan file di bucket Amazon S3 milik pelanggan dan menjalankan perintah salin menggunakan jalur Amazon S3 ini.

Perintah COPY adalah cara paling efisien untuk memuat tabel. Anda juga dapat menambahkan data ke tabel Anda menggunakan perintah INSERT, meskipun jauh lebih efisien daripada menggunakan COPY. Perintah COPY dapat membaca dari beberapa file data atau beberapa aliran data secara bersamaan. Amazon Redshift mengalokasikan beban kerja ke node Amazon Redshift dan melakukan operasi pemuatan secara paralel, termasuk menyortir baris dan mendistribusikan data di seluruh irisan node.

catatan

Tabel eksternal Amazon Redshift Spectrum hanya bisa dibaca. Anda tidak dapat COPY atau INSERT ke tabel eksternal.

Untuk mengakses data pada AWS sumber daya lain, Amazon Redshift harus memiliki izin untuk mengakses sumber daya tersebut dan untuk melakukan tindakan yang diperlukan untuk mengakses data. Anda dapat menggunakan AWS Identity and Access Management (IAM) untuk membatasi akses yang dimiliki pengguna ke sumber daya dan data Amazon Redshift.

Setelah data awal Anda dimuat, jika Anda menambahkan, memodifikasi, atau menghapus sejumlah besar data, Anda harus menindaklanjuti dengan menjalankan perintah VACUUM untuk mengatur ulang data Anda dan merebut kembali ruang setelah dihapus. Anda juga harus menjalankan perintah ANALYZE untuk memperbarui statistik tabel.