Bekerja dengan ETL integrasi nol Amazon RDS dengan Amazon Redshift - Layanan Basis Data Relasional Amazon

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bekerja dengan ETL integrasi nol Amazon RDS dengan Amazon Redshift

ETL Ini adalah solusi yang dikelola sepenuhnya untuk membuat data transaksional tersedia di Amazon Redshift setelah ditulis ke RDSdatabase cluster DB. Extract, transform, dan load (ETL) adalah proses menggabungkan data dari berbagai sumber menjadi gudang data sentral yang besar.

ETLIntegrasi nol membuat data dalam database Anda tersedia di Amazon Redshift dalam waktu dekat. Setelah data tersebut berada di Amazon Redshift, Anda dapat memberi daya pada beban kerja analitik, ML, dan AI menggunakan kemampuan bawaan Amazon Redshift, seperti pembelajaran mesin, tampilan terwujud, berbagi data, akses gabungan ke beberapa penyimpanan data dan data lake, dan integrasi dengan Amazon, Amazon, dan lainnya SageMaker QuickSight Layanan AWS.

Untuk membuat ETL integrasi nol, Anda menentukan database sebagai sumber, dan gudang data Amazon Redshift sebagai target. Integrasi ini mereplikasi data dari basis data sumber ke gudang data target.

Diagram berikut menggambarkan fungsi ini:

ETLIntegrasi nol

Integrasi memantau kondisi pipeline data dan memulihkan dari masalah jika memungkinkan. Anda dapat membuat integrasi dari beberapa RDSdatabase cluster Aurora ke dalam satu namespace Amazon Redshift, memungkinkan Anda memperoleh wawasan di beberapa aplikasi.

Manfaat

RDSETLIntegrasi zero- dengan Amazon Redshift memiliki manfaat sebagai berikut:

  • Membantu Anda memperoleh wawasan menyeluruh dari berbagai sumber data.

  • Menghilangkan kebutuhan untuk membangun dan memelihara jaringan data kompleks yang melakukan operasi ekstrak, transformasi, dan beban (ETL). ETLIntegrasi nol menghilangkan tantangan yang datang dengan membangun dan mengelola jaringan pipa dengan menyediakan dan mengelolanya untuk Anda.

  • Mengurangi beban dan biaya operasional, serta membantu Anda fokus pada peningkatan aplikasi Anda.

  • Memungkinkan Anda memanfaatkan analitik Amazon Redshift dan kemampuan ML untuk memperoleh wawasan dari data transaksional dan data lainnya, guna merespons secara efektif peristiwa kritis dan sensitif terhadap waktu.

Konsep utama

Saat Anda memulai dengan nol- ETL integrasi, pertimbangkan konsep-konsep berikut:

Integrasi

Pipa data terkelola sepenuhnya yang secara otomatis mereplikasi data dan skema transaksional dari basis data cluster RDSAurora .

Database sumber

RDSDatabase tempat data direplikasi. Anda dapat menentukan instans DB Single-AZ atau Multi-AZ, atau cluster DB multi-AZ.

Gudang data target

Gudang data Amazon Redshift tempat tujuan data direplikasi. Ada dua jenis gudang data: gudang data klaster terprovisi dan gudang data nirserver. Gudang data klaster terprovisi adalah kumpulan sumber daya komputasi yang disebut simpul, yang diatur ke dalam grup yang disebut klaster. Gudang data nirserver terdiri dari grup kerja yang menyimpan sumber daya komputasi, serta ruang nama yang menampung objek basis data dan pengguna. Kedua gudang data ini menjalankan mesin Amazon Redshift dan berisi satu atau beberapa basis data.

Beberapa basis data sumber dapat menulis ke target yang sama.

Untuk informasi selengkapnya, lihat Arsitektur sistem gudang data dalam Panduan Developer Amazon Redshift.

Batasan

Batasan berikut berlaku untuk ETL integrasi nol RDS dengan Amazon Redshift.

Batasan umum

  • basis data sumber harus berada di Wilayah yang sama dengan gudang data Amazon Redshift target.

  • Anda tidak dapat mengganti nama jika memiliki integrasi yang ada.

  • Anda tidak dapat membuat beberapa integrasi antara database sumber dan target yang sama.

  • Anda tidak dapat menghapus database yang memiliki integrasi yang ada. Anda harus menghapus semua integrasi yang terkait terlebih dahulu.

  • Jika Anda menghentikan basis data sumber, beberapa transaksi terakhir mungkin tidak direplikasi ke gudang data target sampai Anda melanjutkan database.

  • Anda tidak dapat menghapus integrasi jika database sumber dihentikan.

  • Jika database Anda adalah sumber penerapan biru/hijau, lingkungan biru dan hijau tidak dapat memiliki ETL integrasi nol yang ada selama peralihan. Anda harus menghapus integrasi tersebut terlebih dahulu dan beralih, lalu membuat ulang integrasi.

  • Anda tidak dapat membuat integrasi untuk database sumber yang memiliki integrasi lain yang sedang dibuat secara aktif.

  • Saat Anda pertama kali membuat integrasi, atau ketika tabel sedang disinkronkan ulang, seeding data dari sumber ke target dapat memakan waktu 20-25 menit atau lebih tergantung ukuran basis data sumber. Penundaan ini dapat menyebabkan peningkatan lag replika.

  • Beberapa jenis data tidak didukung. Untuk informasi selengkapnya, lihat Perbedaan tipe data antara database RDS dan Amazon Redshift.

  • Transaksi XA tidak didukung.

  • Pengidentifikasi objek (termasuk nama basis data, nama tabel, nama kolom, dan lainnya) hanya dapat berisi karakter alfanumerik, angka, $, dan _ (garis bawah).

  • Tabel sistem, tabel sementara, dan tampilan tidak direplikasi ke Amazon Redshift.

RDSuntuk SQL Saya Keterbatasan saya SQL

  • Database sumber Anda harus menjalankan versi yang didukung RDS untuk MySQL. Untuk daftar versi yang didukung, lihat Wilayah dan engine DB yang Didukung untuk ETL integrasi RDS nol Amazon dengan Amazon Redshift.

  • ETLIntegrasi nol bergantung pada pencatatan SQL biner saya (binlog) untuk menangkap perubahan data yang sedang berlangsung. Jangan gunakan pemfilteran data berbasis binlog, karena dapat menyebabkan inkonsistensi data antara basis data sumber dan target.

  • ETLIntegrasi nol didukung hanya untuk database yang dikonfigurasi untuk menggunakan mesin penyimpanan InnoDB.

  • Referensi kunci asing dengan pembaruan tabel yang telah ditentukan sebelumnya tidak didukung. Secara khusus, ON DELETE dan ON UPDATE aturan tidak didukung denganCASCADE,SET NULL, dan SET DEFAULT tindakan. Mencoba membuat atau memperbarui tabel dengan referensi tersebut ke tabel lain akan menempatkan tabel ke dalam keadaan gagal.

  • ALTER TABLEoperasi partisi menyebabkan tabel Anda melakukan sinkronisasi ulang untuk memuat ulang data dari Aurora RDS Amazon Redshift. Tabel tidak akan tersedia untuk kueri saat disinkronkan ulang. Untuk informasi selengkapnya, lihat Satu atau beberapa tabel Amazon Redshift saya memerlukan sinkronisasi ulang.

Batasan Amazon Redshift

Untuk daftar batasan Amazon Redshift yang terkait dengan nol ETL integrasi, lihat Pertimbangan di Panduan Manajemen Pergeseran Merah Amazon.

Kuota

Akun Anda memiliki kuota berikut yang terkait dengan integrasi nol RDS dengan Amazon ETL Redshift. Kecuali ditentukan lain, masing-masing kuota ditentukan untuk setiap Wilayah.

Nama Default Deskripsi
Integrasi 100 Jumlah total integrasi dalam suatu Akun AWS.
Integrasi per gudang data target 50 Jumlah integrasi yang mengirim data ke satu gudang data Amazon Redshift target.
Integrasi per instans sumber 5 5 Jumlah integrasi yang mengirimkan data dari instans DB sumber tunggal.

Selain itu, Amazon Redshift menempatkan batasan tertentu pada jumlah tabel yang diizinkan di setiap instans DB atau simpul klaster. Untuk informasi selengkapnya, lihat Kuota dan batasan di Amazon Redshift dalam Panduan Manajemen Amazon Redshift.

Wilayah yang Didukung

RDSETLIntegrasi zero- dengan Amazon Redshift tersedia dalam subset Wilayah AWS. Untuk daftar Wilayah yang didukung, lihat Wilayah dan engine DB yang Didukung untuk ETL integrasi RDS nol Amazon dengan Amazon Redshift.