Gambaran Umum Cara kerja dekomisioning yang anggun Prasyarat Konfigurasi

Penonaktifan Instans Spot yang anggun dengan Flink di Amazon di EMR EKS

Flink dengan EMR Amazon aktif EKS dapat meningkatkan waktu restart pekerjaan selama pemulihan tugas atau operasi penskalaan.

Gambaran Umum

Amazon EMR pada EKS rilis 6.15.0 dan yang lebih tinggi mendukung penonaktifan Manajer Tugas di Instans Spot di Amazon EMR dengan Apache Flink. EKS Sebagai bagian dari fitur ini, EMR Amazon EKS dengan Flink menyediakan kemampuan berikut:

Just-in-time checkpointing — Pekerjaan streaming Flink dapat merespons gangguan Instans Spot, melakukan just-in-time (JIT) pos pemeriksaan dari pekerjaan yang sedang berjalan, dan mencegah penjadwalan tugas tambahan pada Instans Spot ini. JITpos pemeriksaan didukung dengan penjadwal default dan adaptif.
Mekanisme restart gabungan — Mekanisme restart gabungan melakukan upaya terbaik untuk memulai kembali pekerjaan setelah mencapai paralelisme sumber daya target atau akhir jendela yang dikonfigurasi saat ini. Ini juga mencegah restart pekerjaan berturut-turut yang mungkin disebabkan oleh beberapa penghentian Instans Spot. Mekanisme restart gabungan hanya tersedia dengan penjadwal adaptif.

Kemampuan ini memberikan manfaat sebagai berikut:

Anda dapat memanfaatkan Instans Spot untuk menjalankan Manajer Tugas dan mengurangi pengeluaran klaster.
Peningkatan keaktifan untuk Spot Instance Task Manager menghasilkan ketahanan yang lebih tinggi dan penjadwalan pekerjaan yang lebih efisien.
Pekerjaan Flink Anda akan memiliki lebih banyak uptime karena akan ada lebih sedikit restart dari penghentian Instans Spot.

Cara kerja dekomisioning yang anggun

Pertimbangkan contoh berikut: Anda menyediakan Amazon EMR di EKS klaster yang menjalankan Apache Flink, dan Anda menentukan node On-Demand untuk Job Manager, dan node Instans Spot untuk Task Manager. Dua menit sebelum penghentian, Task Manager menerima pemberitahuan gangguan.

Dalam skenario ini, Job Manager akan menangani sinyal interupsi Instans Spot, memblokir penjadwalan tugas tambahan pada Instans Spot, dan memulai JIT checkpointing untuk pekerjaan streaming.

Kemudian, Job Manager akan memulai ulang grafik pekerjaan hanya setelah ada ketersediaan sumber daya baru yang cukup untuk memenuhi paralelisme pekerjaan saat ini di jendela interval restart saat ini. Interval jendela restart ditentukan berdasarkan durasi penggantian Instans Spot, pembuatan pod Task Manager baru, dan pendaftaran dengan Job Manager.

Prasyarat

Untuk menggunakan dekomisioning yang anggun, buat dan jalankan pekerjaan streaming di Amazon di EKS cluster yang menjalankan Apache EMR Flink. Aktifkan Penjadwal Adaptif dan Manajer Tugas yang dijadwalkan pada setidaknya satu Instance Spot, seperti yang ditunjukkan pada contoh berikut. Anda harus menggunakan node On-Demand untuk Job Manager, dan Anda dapat menggunakan node On-Demand untuk Task Manager selama setidaknya ada satu Instance Spot juga.


apiVersion: flink.apache.org/v1beta1
kind: FlinkDeployment
metadata:
  name: deployment_name
spec:
  flinkVersion: v1_17
  flinkConfiguration:
    taskmanager.numberOfTaskSlots: "2"
    cluster.taskmanager.graceful-decommission.enabled: "true"
    execution.checkpointing.interval: "240s"
    jobmanager.adaptive-scheduler.combined-restart.enabled: "true"
    jobmanager.adaptive-scheduler.combined-restart.window-interval : "1m"
  serviceAccount: flink
  jobManager:
    resource:
      memory: "2048m"
      cpu: 1
    nodeSelector:
      'eks.amazonaws.com/capacityType': 'ON_DEMAND'
  taskManager:
    resource:
      memory: "2048m"
      cpu: 1
    nodeSelector:
      'eks.amazonaws.com/capacityType': 'SPOT'
  job:
    jarURI: flink_job_jar_path

Konfigurasi

Bagian ini mencakup sebagian besar konfigurasi yang dapat Anda tentukan untuk kebutuhan penonaktifan Anda.

Kunci	Deskripsi	Nilai default	Nilai yang dapat diterima
`cluster.taskmanager.graceful-decommission.enabled`	Aktifkan penonaktifan Task Manager yang anggun.	`true`	`true`, `false`
`jobmanager.adaptive-scheduler.combined-restart.enabled`	Aktifkan mekanisme restart gabungan di Adaptive Scheduler.	`false`	`true`, `false`
`jobmanager.adaptive-scheduler.combined-restart.window-interval`	Interval jendela restart gabungan untuk melakukan restart gabungan untuk pekerjaan tersebut. Sebuah integer tanpa unit ditafsirkan sebagai milidetik.	`1m`	Contoh:`30`,`60s`,`3m`, `1h`

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mengoptimalkan waktu restart

Menggunakan Autoscaler