Menggunakan tabel Apache Iceberg dengan Amazon Redshift - Amazon Redshift

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan tabel Apache Iceberg dengan Amazon Redshift

Topik ini menjelaskan cara menggunakan tabel dalam format Apache Iceberg dengan Redshift Spectrum atau Redshift Serverless. Apache Iceberg adalah format kinerja tinggi untuk tabel analitik besar.

Anda dapat menggunakan Redshift Spectrum atau Redshift Serverless untuk menanyakan tabel Apache Iceberg yang dikatalogkan di AWS Glue Data Catalog. Apache Iceberg adalah format tabel open-source untuk data lake. Untuk informasi lebih lanjut, lihat Apache Iceberg di dokumentasi Apache Iceberg.

Amazon Redshift memberikan konsistensi transaksional untuk menanyakan tabel Apache Iceberg. Anda dapat memanipulasi data dalam tabel menggunakan layanan yang sesuai ACID (atomisitas, konsistensi, isolasi, daya tahan) seperti Amazon Athena dan Amazon EMR saat menjalankan kueri menggunakan Amazon Redshift. Amazon Redshift dapat menggunakan statistik tabel yang disimpan dalam metadata Apache Iceberg untuk mengoptimalkan paket kueri dan mengurangi pemindaian file selama pemrosesan kueri. Dengan Amazon RedshiftSQL, Anda dapat bergabung dengan tabel Redshift dengan tabel data lake.

Untuk mulai menggunakan tabel Iceberg dengan Amazon Redshift:

  1. Buat tabel Apache Iceberg di atas AWS Glue Data Catalog database menggunakan layanan yang kompatibel seperti Amazon Athena atau Amazon. EMR Untuk membuat tabel Gunung Es menggunakan Athena, lihat Menggunakan tabel Apache Iceberg di Panduan Pengguna Amazon Athena.

  2. Buat klaster Amazon Redshift atau grup kerja Redshift Serverless dengan IAM peran terkait yang memungkinkan akses ke data lake Anda. Untuk informasi tentang cara membuat klaster atau grup kerja, lihat Memulai gudang data yang disediakan Amazon Redshift dan Memulai gudang data Tanpa Server Redshift di Panduan Memulai Pergeseran Merah Amazon.

  3. Connect ke cluster atau workgroup Anda menggunakan query editor v2 atau SQL klien pihak ketiga. Untuk informasi tentang cara menyambung menggunakan editor kueri v2, lihat Menyambungkan ke gudang data Amazon Redshift menggunakan alat SQL klien di Panduan Manajemen Amazon Redshift.

  4. Buat skema eksternal di database Amazon Redshift Anda untuk database Katalog Data tertentu yang menyertakan tabel Iceberg Anda. Untuk informasi tentang membuat skema eksternal, lihatSkema eksternal di Amazon Redshift Spectrum.

  5. Jalankan SQL kueri untuk mengakses tabel Iceberg dalam skema eksternal yang Anda buat.

Pertimbangan saat menggunakan tabel Apache Iceberg dengan Amazon Redshift

Pertimbangkan hal berikut saat menggunakan Amazon Redshift dengan tabel Iceberg:

  • Dukungan versi Iceberg - Amazon Redshift mendukung kueri yang berjalan terhadap versi tabel Iceberg berikut:

    • Versi 1 mendefinisikan bagaimana tabel analitik besar dikelola menggunakan file data yang tidak dapat diubah.

    • Versi 2 menambahkan kemampuan untuk mendukung pembaruan dan penghapusan tingkat baris sambil menjaga file data yang ada tidak berubah, dan menangani perubahan data tabel menggunakan file hapus.

    Untuk perbedaan antara tabel versi 1 dan versi 2, lihat Format perubahan versi dalam dokumentasi Apache Iceberg.

  • Hanya kueri - Amazon Redshift mendukung akses hanya-baca ke tabel Apache Iceberg. Ini mendukung kueri pilih konsisten transaksional. Anda dapat menggunakan layanan seperti Amazon Athena untuk menentukan dan memperbarui skema tabel Iceberg di AWS Glue Data Catalog.

  • Menambahkan partisi - Anda tidak perlu menambahkan partisi secara manual untuk tabel Apache Iceberg Anda. Partisi baru dalam tabel Apache Iceberg secara otomatis terdeteksi oleh Amazon Redshift dan tidak diperlukan operasi manual untuk memperbarui partisi dalam definisi tabel. Setiap perubahan dalam spesifikasi partisi juga secara otomatis diterapkan ke kueri Anda tanpa campur tangan pengguna.

  • Menyerap data Gunung Es ke Amazon Redshift - Anda dapat menggunakan INSERT INTO atau perintah CREATE TABLE AS untuk mengimpor data dari tabel Iceberg ke tabel Amazon Redshift lokal. Saat ini Anda tidak dapat menggunakan COPY perintah untuk menelan konten tabel Apache Iceberg ke dalam tabel Amazon Redshift lokal.

  • Tampilan terwujud - Anda dapat membuat tampilan terwujud pada tabel Apache Iceberg seperti tabel eksternal lainnya di Amazon Redshift. Pertimbangan yang sama untuk format tabel data lake lainnya berlaku untuk tabel Apache Iceberg. Pembaruan tambahan, penyegaran otomatis, penulisan ulang kueri otomatis, dan otomatis MVs pada tabel data lake saat ini tidak didukung.

  • AWS Lake Formation kontrol akses berbutir halus - Amazon Redshift mendukung AWS Lake Formation kontrol akses berbutir halus pada tabel Apache Iceberg.

  • Parameter penanganan data yang ditentukan pengguna — Amazon Redshift mendukung parameter penanganan data yang ditentukan pengguna pada tabel Apache Iceberg. Anda menggunakan parameter penanganan data yang ditentukan pengguna pada file yang ada untuk menyesuaikan data yang sedang ditanyakan di tabel eksternal untuk menghindari kesalahan pemindaian. Parameter ini memberikan kemampuan untuk menangani ketidakcocokan antara skema tabel dan data aktual pada file. Anda dapat menggunakan parameter penanganan data yang ditentukan pengguna pada tabel Apache Iceberg juga.

  • Berbagi data — Berbagi data Amazon Redshift saat ini tidak mendukung tabel data lake, termasuk tabel Apache Iceberg.

  • Pertanyaan perjalanan waktu — Pertanyaan perjalanan waktu saat ini tidak didukung dengan tabel Apache Iceberg.

  • Harga — Saat Anda mengakses tabel Iceberg dari klaster, Anda dikenakan harga Redshift Spectrum. Saat Anda mengakses tabel Iceberg dari grup kerja, Anda dikenakan harga Redshift Tanpa Server. Untuk informasi tentang harga Redshift Spectrum dan Redshift Tanpa Server, lihat harga Amazon Redshift.