Konfigurasikan pengaturan cadangan - Amazon Data Firehose

Mengirimkan aliran Amazon Data Firehose ke Apache Iceberg Tables di Amazon S3 sedang dalam pratinjau dan dapat berubah sewaktu-waktu.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konfigurasikan pengaturan cadangan

Amazon Data Firehose menggunakan Amazon S3 untuk mencadangkan semua atau hanya data yang gagal yang coba dikirim ke tujuan yang Anda pilih.

penting
  • Pengaturan Backup hanya didukung jika sumber aliran Firehose Anda adalah Direct PUT atau Kinesis Data Streams.

  • Fitur buffering nol hanya tersedia untuk tujuan aplikasi dan tidak tersedia untuk tujuan cadangan Amazon S3.

Anda dapat menentukan pengaturan cadangan S3 untuk aliran Firehose Anda jika Anda membuat salah satu pilihan berikut.

  • Jika Anda menetapkan Amazon S3 sebagai tujuan untuk aliran Firehose Anda dan Anda memilih untuk menentukan AWS Lambda berfungsi untuk mengubah catatan data atau jika Anda memilih untuk mengonversi format rekaman data untuk aliran Firehose Anda.

  • Jika Anda menetapkan Amazon Redshift sebagai tujuan untuk aliran Firehose Anda dan Anda memilih untuk menentukan AWS Lambda berfungsi untuk mengubah catatan data.

  • Jika Anda menetapkan salah satu layanan berikut sebagai tujuan untuk aliran Firehose Anda — Amazon OpenSearch Service, Datadog, Dynatrace, Endpoint,, LogicMonitor MongoDB Cloud, New Relic, SplunkHTTP, atau Sumo Logic, Snowflake, Apache Iceberg Tables.

Berikut ini adalah pengaturan cadangan untuk aliran Firehose Anda.

  • Pencadangan catatan sumber di Amazon S3 - jika S3 atau Amazon Redshift adalah tujuan yang Anda pilih, pengaturan ini menunjukkan apakah Anda ingin mengaktifkan cadangan data sumber atau menonaktifkannya. Jika layanan lain yang didukung (selain S3 atau Amazon Redshift) ditetapkan sebagai tujuan yang Anda pilih, maka pengaturan ini menunjukkan jika Anda ingin mencadangkan semua data sumber atau data yang gagal saja.

  • Bucket cadangan S3 - ini adalah bucket S3 tempat Amazon Data Firehose mencadangkan data Anda.

  • Awalan bucket cadangan S3 - ini adalah awalan tempat Amazon Data Firehose mencadangkan data Anda.

  • Awalan keluaran kesalahan bucket cadangan S3 - semua data yang gagal dicadangkan dalam awalan keluaran kesalahan bucket S3 ini.

  • Petunjuk penyangga, kompresi, dan enkripsi untuk pencadangan - Amazon Data Firehose menggunakan Amazon S3 untuk mencadangkan semua atau hanya gagal data yang coba dikirim ke tujuan yang Anda pilih. Amazon Data Firehose menyangga data yang masuk sebelum mengirimkannya (mencadangkannya) ke Amazon S3. Anda dapat memilih ukuran buffer 1—128 MiBs dan interval buffer 60—900 detik. Syarat pertama yang dipenuhi memicu pengiriman data ke Amazon S3. Jika Anda mengaktifkan transformasi data, interval buffer berlaku dari waktu data yang diubah diterima oleh Amazon Data Firehose hingga pengiriman data ke Amazon S3. Jika pengiriman data ke tujuan tertinggal dari penulisan data ke aliran Firehose, Amazon Data Firehose meningkatkan ukuran buffer secara dinamis untuk mengejar ketinggalan. Tindakan ini membantu memastikan bahwa semua data dikirim ke tujuan.

  • Kompresi S3 - pilihGZIP, Snappy, Zip, atau kompresi data Snappy yang Kompatibel dengan Hadoop, atau tidak ada kompresi data. Kompresi Snappy Snappy, Zip, dan Hadoop-Compatible Snappy tidak tersedia untuk aliran Firehose dengan Amazon Redshift sebagai tujuannya.

  • Format ekstensi file S3 (opsional) — Tentukan format ekstensi file untuk objek yang dikirim ke bucket tujuan Amazon S3. Jika Anda mengaktifkan fitur ini, ekstensi file yang ditentukan akan mengganti ekstensi file default yang ditambahkan oleh Konversi Format Data atau fitur kompresi S3 seperti.parquet atau.gz. Pastikan jika Anda mengonfigurasi ekstensi file yang benar saat Anda menggunakan fitur ini dengan Konversi Format Data atau kompresi S3. Ekstensi file harus dimulai dengan titik (.) dan dapat berisi karakter yang diizinkan: 0-9a-z! -_.*' (). Ekstensi file tidak boleh melebihi 128 karakter.

  • Firehose mendukung enkripsi sisi server Amazon S3 dengan AWS Key Management Service (SSE-KMS) untuk mengenkripsi data yang dikirimkan di Amazon S3. Anda dapat memilih untuk menggunakan jenis enkripsi default yang ditentukan dalam bucket S3 tujuan atau untuk mengenkripsi dengan kunci dari daftar AWS KMS kunci yang Anda miliki. Jika Anda mengenkripsi data dengan AWS KMS kunci, Anda dapat menggunakan salah satu default AWS kunci terkelola (aws/s3) atau kunci yang dikelola pelanggan. Untuk informasi selengkapnya, lihat Melindungi Data Menggunakan Enkripsi Sisi Server dengan AWS KMS-Kunci Terkelola (SSE-KMS).

Konfigurasikan petunjuk buffering

Amazon Data Firehose menyangga data streaming yang masuk dalam memori ke ukuran tertentu (ukuran buffering) dan untuk jangka waktu tertentu (interval buffering) sebelum mengirimkannya ke tujuan yang ditentukan. Anda akan menggunakan petunjuk buffering ketika Anda ingin mengirimkan file berukuran optimal ke Amazon S3 dan mendapatkan kinerja yang lebih baik dari aplikasi pemrosesan data atau untuk menyesuaikan tingkat pengiriman Firehose agar sesuai dengan kecepatan tujuan.

Anda dapat mengonfigurasi ukuran buffering dan interval buffer sambil membuat aliran Firehose baru atau memperbarui ukuran buffering dan interval buffering pada aliran Firehose yang ada. Ukuran buffering diukur dalam MBs dan interval buffering diukur dalam hitungan detik. Akan tetapi, jika Anda menentukan nilai untuk salah satunya, Anda juga harus menyediakan nilai untuk yang lain. Kondisi buffer pertama yang puas memicu Firehose untuk mengirimkan data. Jika Anda tidak mengonfigurasi nilai buffering, maka nilai default akan digunakan.

Anda dapat mengonfigurasi petunjuk buffering Firehose melalui AWS Management Console, AWS Command Line Interface, atau AWS SDKs. Untuk aliran yang ada, Anda dapat mengonfigurasi ulang petunjuk buffering dengan nilai yang sesuai dengan kasus penggunaan Anda menggunakan opsi Edit di konsol atau menggunakan. UpdateDestinationAPI Untuk aliran baru, Anda dapat mengonfigurasi petunjuk buffering sebagai bagian dari pembuatan aliran baru menggunakan konsol atau menggunakan. CreateDeliveryStreamAPI Untuk menyesuaikan ukuran buffering, atur SizeInMBs dan IntervalInSeconds di DestinationConfiguration parameter spesifik tujuan CreateDeliveryStreamatau UpdateDestinationAPI.

catatan
  • Petunjuk buffer diterapkan pada tingkat pecahan atau partisi, sementara petunjuk buffer partisi dinamis diterapkan pada tingkat aliran atau topik.

  • Untuk memenuhi latensi yang lebih rendah dari kasus penggunaan waktu nyata, Anda dapat menggunakan petunjuk interval buffering nol. Saat Anda mengonfigurasi interval buffering sebagai nol detik, Firehose tidak akan menyangga data dan akan mengirimkan data dalam beberapa detik. Sebelum Anda mengubah petunjuk buffering ke nilai yang lebih rendah, tanyakan kepada vendor untuk petunjuk buffering Firehose yang direkomendasikan untuk tujuan mereka.

  • Fitur buffering nol hanya tersedia untuk tujuan aplikasi dan tidak tersedia untuk tujuan cadangan Amazon S3.

  • Fitur buffering nol tidak tersedia untuk partisi dinamis.

  • Firehose menggunakan unggahan multi-bagian untuk tujuan S3 saat Anda mengonfigurasi interval waktu buffer kurang dari 60 detik untuk menawarkan latensi yang lebih rendah. Karena unggahan multi-bagian untuk tujuan S3, Anda akan melihat beberapa peningkatan PUT API biaya S3 jika Anda memilih interval waktu buffer kurang dari 60 detik.

Untuk rentang petunjuk buffering spesifik tujuan dan nilai default, lihat tabel berikut:

Tujuan Ukuran buffering dalam MB (default dalam tanda kurung) Interval buffering dalam hitungan detik (default dalam tanda kurung)
Amazon S3 1-128 (5) 0-900 (300)
Tabel Gunung Es Apache 1-128 (5) 0-900 (300)
Amazon Redshift 1-128 (5) 0-900 (300)
OpenSearch Tanpa server 1-100 (5) 0-900 (300)
OpenSearch 1-100 (5) 0-900 (300)
Splunk 1-5 (5) 0-60 (60)
Datadog 1-4 (4) 0-900 (60)
Coralogix 1-64 (6) 0-900 (60)
Dynatrace 1-64 (5) 0-900 (60)
Elastis 1 0-900 (60)
Honeycomb 1-64 (15) 0-900 (60)
HTTPtitik akhir 1-64 (5) 0-900 (60)
LogicMonitor 1-64 (5) 0-900 (60)
Logzio 1-64 (5) 0-900 (60)
MongoDB 1-16 (5) 0-900 (60)
newRelic 1-64 (5) 0-900 (60)
sumoLogic 1-64 (1) 0-900 (60)
Cloud Observabilitas Splunk 1-64 (1) 0-900 (60)
Kepingan salju 1 - 128 (1) 0 - 900 (0)