Menggunakan integrasi nol-ETL Aurora dengan Amazon Redshift - Amazon Aurora

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan integrasi nol-ETL Aurora dengan Amazon Redshift

Integrasi nol-ETL Aurora dengan Amazon Redshift memungkinkan analisis hampir waktu nyata dan machine learning (ML) menggunakan Amazon Redshift pada data transaksional berukuran petabyte dari Aurora. Ini adalah solusi yang dikelola sepenuhnya untuk membuat data transaksional tersedia di Amazon Redshift setelah ditulis ke Aurora DB cluster. Extract, transform, and load (ETL) adalah proses menggabungkan data dari berbagai sumber menjadi gudang data sentral yang besar.

Integrasi nol-ETL membuat data dalam DB cluster tersedia di Amazon Redshift dalam waktu dekat. Setelah data tersebut berada di Amazon Redshift, Anda dapat memberi daya pada beban kerja analitik, ML, dan AI menggunakan kemampuan bawaan Amazon Redshift, seperti pembelajaran mesin, tampilan terwujud, berbagi data, akses gabungan ke beberapa penyimpanan data dan data lake, serta integrasi dengan Amazon, Amazon, dan lainnya. SageMaker QuickSight Layanan AWS

Untuk membuat integrasi nol-ETL, Anda menentukan DB cluster sebagai sumber, dan gudang data Amazon Redshift sebagai target. Integrasi ini mereplikasi data dari basis data sumber ke gudang data target.

Diagram berikut menggambarkan fungsi ini:

Integrasi nol-ETL

Integrasi memantau kondisi pipeline data dan memulihkan dari masalah jika memungkinkan. Anda dapat membuat integrasi dari beberapa klaster Aurora DB ke dalam satu namespace Amazon Redshift, memungkinkan Anda memperoleh wawasan di beberapa aplikasi.

Untuk informasi tentang harga integrasi nol-ETL, lihat Harga Amazon Aurora dan Harga Amazon Redshift.

Manfaat

Integrasi nol-ETL Aurora dengan Amazon Redshift memiliki manfaat berikut:

  • Membantu Anda memperoleh wawasan menyeluruh dari berbagai sumber data.

  • Menghilangkan kebutuhan untuk membangun dan memelihara pipeline data yang kompleks yang melakukan operasi extract, transform, and load (ETL). Integrasi nol-ETL menghilangkan tantangan yang muncul dalam membangun dan mengelola pipeline dengan menyediakan dan mengelolanya untuk Anda.

  • Mengurangi beban dan biaya operasional, serta membantu Anda fokus pada peningkatan aplikasi Anda.

  • Memungkinkan Anda memanfaatkan analitik Amazon Redshift dan kemampuan ML untuk memperoleh wawasan dari data transaksional dan data lainnya, guna merespons secara efektif peristiwa kritis dan sensitif terhadap waktu.

Konsep utama

Saat mulai menggunakan integrasi nol-ETL, pertimbangkan konsep berikut ini:

Integrasi

Pipa data yang dikelola sepenuhnya yang secara otomatis mereplikasi data dan skema transaksional dari DB cluster ke gudang data Amazon Redshift.

sumber DB cluster

Aurora DB cluster tempat data direplikasi. Untuk Aurora MySQL, Anda dapat menentukan klaster DB yang menggunakan instans DB terprovisi atau instans DB Aurora Serverless v2 sebagai sumbernya. Untuk Aurora PostgreSQL pratinjau, Anda hanya dapat menentukan klaster yang menggunakan instans DB yang disediakan.

Gudang data target

Gudang data Amazon Redshift tempat tujuan data direplikasi. Ada dua jenis gudang data: gudang data klaster terprovisi dan gudang data nirserver. Gudang data klaster terprovisi adalah kumpulan sumber daya komputasi yang disebut simpul, yang diatur ke dalam grup yang disebut klaster. Gudang data nirserver terdiri dari grup kerja yang menyimpan sumber daya komputasi, serta ruang nama yang menampung objek basis data dan pengguna. Kedua gudang data ini menjalankan mesin Amazon Redshift dan berisi satu atau beberapa basis data.

Beberapa sumber DB cluster dapat menulis ke target yang sama.

Untuk informasi selengkapnya, lihat Arsitektur sistem gudang data dalam Panduan Developer Amazon Redshift.

Batasan

Batasan berikut berlaku pada integrasi nol-ETL Aurora dengan Amazon Redshift.

Batasan umum

  • Cluster DB sumber harus berada di Wilayah yang sama dengan gudang data Amazon Redshift target.

  • Anda tidak dapat mengganti nama cluster DB atau instance-nya jika memiliki integrasi yang ada.

  • Anda tidak dapat menghapus cluster DB yang memiliki integrasi yang ada. Anda harus menghapus semua integrasi yang terkait terlebih dahulu.

  • Jika Anda menghentikan cluster DB sumber, beberapa transaksi terakhir mungkin tidak direplikasi ke gudang data target sampai Anda melanjutkan cluster .

  • Jika kluster Anda adalah sumber penerapan biru/hijau, lingkungan biru dan hijau tidak dapat memiliki integrasi nol-ETL selama peralihan. Anda harus menghapus integrasi tersebut terlebih dahulu dan beralih, lalu membuat ulang integrasi.

  • Cluster DB harus berisi setidaknya satu instans DB untuk menjadi sumber integrasi.

  • Jika klaster sumber Anda adalah klaster DB primer dalam basis data global Aurora dan melakukan failover ke salah satu klaster sekundernya, integrasi menjadi tidak aktif. Anda harus menghapus dan membuat ulang integrasi.

  • Anda tidak dapat membuat integrasi untuk database sumber yang memiliki integrasi lain yang sedang dibuat secara aktif.

  • Saat Anda pertama kali membuat integrasi, atau ketika tabel sedang disinkronkan ulang, seeding data dari sumber ke target dapat memakan waktu 20-25 menit atau lebih tergantung ukuran basis data sumber. Penundaan ini dapat menyebabkan peningkatan lag replika.

  • Beberapa jenis data tidak didukung. Untuk informasi selengkapnya, lihat Perbedaan jenis data antara basis data Aurora dan Amazon Redshift.

  • Referensi kunci asing dengan pembaruan tabel yang telah ditentukan sebelumnya tidak didukung. Secara khusus, ON DELETE dan ON UPDATE aturan tidak didukung denganCASCADE,SET NULL, dan SET DEFAULT tindakan. Mencoba membuat atau memperbarui tabel dengan referensi tersebut ke tabel lain akan menempatkan tabel ke dalam keadaan gagal.

  • Operasi partisi ALTER TABLE menyebabkan tabel Anda melakukan sinkronisasi ulang untuk memuat ulang data dari Aurora ke Amazon Redshift. Tabel tidak akan tersedia untuk kueri saat disinkronkan ulang. Untuk informasi selengkapnya, lihat Satu atau beberapa tabel Amazon Redshift saya memerlukan sinkronisasi ulang.

  • Transaksi XA tidak didukung.

  • Pengidentifikasi objek (termasuk nama basis data, nama tabel, nama kolom, dan lainnya) hanya dapat berisi karakter alfanumerik, angka, $, dan _ (garis bawah).

Batasan Aurora MySQL

  • Cluster DB sumber Anda harus menjalankan Aurora MySQL versi 3.05 (kompatibel dengan MySQL 8.0.32) atau lebih tinggi.

  • Integrasi nol-ETL mengandalkan pencatatan log biner MySQL (binlog) untuk mengambil perubahan data yang sedang berlangsung. Jangan gunakan pemfilteran data berbasis binlog, karena dapat menyebabkan inkonsistensi data antara basis data sumber dan target.

  • Tabel sistem, tabel sementara, dan tampilan Aurora MySQL tidak direplikasi ke Amazon Redshift.

  • Integrasi nol-ETL didukung hanya untuk basis data yang dikonfigurasi untuk menggunakan mesin penyimpanan InnoDB.

Batasan Aurora PostgreSQL pratinjau

penting

Integrasi nol-ETL dengan fitur Amazon Redshift untuk Aurora PostgreSQL sedang dalam rilis pratinjau. Dokumentasi dan fitur dapat berubah. Anda dapat menggunakan fitur ini hanya dalam lingkungan pengujian, bukan dalam lingkungan produksi. Untuk syarat dan ketentuan pratinjau, lihat Beta dan Pratinjau dalam Persyaratan Layanan AWS.

  • Klaster DB sumber Anda harus menjalankan Aurora PostgreSQL (kompatibel dengan PostgreSQL 15.4 dan Dukungan Nol-ETL).

  • Anda dapat membuat dan mengelola integrasi nol-ETL untuk Aurora PostgreSQL hanya di Lingkungan Pratinjau Database Amazon RDS, di Timur AS (Ohio) (us-east-2). Wilayah AWS Anda dapat menggunakan lingkungan pratinjau untuk menguji versi beta, versi kandidat rilis, dan versi produksi awal perangkat lunak mesin basis data PostgreSQL.

  • Anda dapat membuat dan mengelola integrasi untuk Aurora PostgreSQL hanya menggunakan AWS Management Console. Anda tidak dapat menggunakan AWS Command Line Interface (AWS CLI), Amazon RDS API, atau AWS SDK mana pun.

  • Saat Anda membuat klaster DB sumber, grup parameter yang Anda pilih harus sudah mengonfigurasi nilai parameter klaster DB yang diperlukan. Anda tidak dapat membuat grup parameter baru setelahnya lalu mengaitkannya dengan klaster. Untuk daftar parameter yang diperlukan, lihat Langkah 1: Buat grup parameter klaster DB kustom.

  • Anda tidak dapat memodifikasi integrasi setelah Anda membuatnya. Jika perlu mengubah pengaturan tertentu, Anda harus menghapus dan membuat ulang integrasi.

  • Saat ini, klaster DB Aurora PostgreSQL yang merupakan sumber integrasi tidak melakukan pengumpulan sampah data replikasi logis.

  • Semua basis data yang dibuat dalam klaster DB Aurora PostgreSQL sumber harus menggunakan pengenkodean UTF-8.

  • Nama kolom tidak dapat berisi salah satu karakter berikut: koma (,), titik koma (;), tanda kurung (), kurung kurawal {}, baris baru (\n), tab (\ t), tanda sama dengan (=), dan spasi.

  • Integrasi nol-ETL dengan Aurora PostgreSQL tidak mendukung hal berikut ini:

    • Instans DB Aurora Serverless v2. Klaster DB sumber Anda harus menggunakan instans DB terprovisi.

    • Jenis data kustom atau jenis data yang dibuat oleh ekstensi.

    • Subtransaksi pada klaster DB sumber.

    • Mengubah nama skema atau basis data dalam klaster DB sumber.

    • Memulihkan dari snapshot klaster DB atau menggunakan kloning Aurora untuk membuat klaster DB sumber. Jika Anda ingin menambahkan data yang ada ke dalam klaster pratinjau, Anda harus menggunakan utilitas pg_dump atau pg_restore.

    • Pembuatan slot replikasi logis pada instans penulis dari klaster DB sumber.

    • Nilai bidang besar yang memerlukan The Oversized-Attribute Storage Technique (TOAST).

    • Operasi partisi ALTER TABLE. Operasi ini dapat menyebabkan tabel Anda disinkronkan kembali dan akhirnya beralih ke status Failed. Jika sebuah tabel gagal, maka Anda harus menghapus dan membuatnya kembali.

Batasan Amazon Redshift

Untuk mengetahui daftar batasan Amazon Redshift yang terkait dengan integrasi nol-ETL, lihat Pertimbangan dalam Panduan Manajemen Amazon Redshift.

Kuota

Akun Anda memiliki kuota berikut yang terkait dengan integrasi nol-ETL Aurora dengan Amazon Redshift. Kecuali ditentukan lain, masing-masing kuota ditentukan untuk setiap Wilayah.

Nama Default Deskripsi
Integrasi 100 Jumlah total integrasi dalam sebuah Akun AWS.
Integrasi per gudang data target 50 Jumlah integrasi yang mengirim data ke satu gudang data Amazon Redshift target.
Integrasi per klaster sumber 5 untuk Aurora MySQL, 1 untuk Aurora PostgreSQL Jumlah integrasi yang mengirimkan data dari klaster DB sumber tunggal.

Selain itu, Amazon Redshift menempatkan batasan tertentu pada jumlah tabel yang diizinkan di setiap instans DB atau simpul klaster. Untuk informasi selengkapnya, lihat Kuota dan batasan di Amazon Redshift dalam Panduan Manajemen Amazon Redshift.

Wilayah yang Didukung

Integrasi Aurora Zero-ETL dengan Amazon Redshift tersedia dalam subset. Wilayah AWS Untuk mengetahui daftar Wilayah yang didukung, lihat Daerah yang Didukung dan engine Aurora DB untuk integrasi Nol-ETL dengan Amazon Redshift.