**Bantu tingkatkan halaman ini** 

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih **Edit halaman ini pada GitHub** tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Secara otomatis memperbaiki node di kluster EKS
<a name="node-repair"></a>

Topik ini merinci perilaku perbaikan node otomatis EKS dan cara mengonfigurasinya untuk memenuhi kebutuhan Anda. Perbaikan simpul otomatis EKS diaktifkan secara default dalam Mode Otomatis EKS, dan dapat digunakan dengan grup simpul yang dikelola EKS dan Karpenter.

Tindakan perbaikan node otomatis EKS default dirangkum dalam tabel di bawah ini dan mereka berlaku untuk perilaku untuk Mode Otomatis EKS, grup node terkelola EKS, dan Karpenter. Saat menggunakan Mode Otomatis EKS atau Karpenter, semua tindakan `AcceleratedHardwareReady` perbaikan dilakukan`Replace`, dan hanya grup simpul yang dikelola EKS yang mendukung `Reboot` sebagai tindakan perbaikan.

Untuk daftar rinci masalah kesehatan node yang terdeteksi oleh agen pemantau simpul EKS dan tindakan perbaikan node yang sesuai, lihat[Mendeteksi masalah kesehatan simpul dengan agen pemantauan simpul EKS](node-health-nma.md).


| Kondisi Node | Deskripsi | Perbaikan setelah | Tindakan perbaikan | 
| --- | --- | --- | --- | 
|  AcceleratedHardwareReady  |  AcceleratedHardwareReady menunjukkan apakah perangkat keras yang dipercepat (GPU, Neuron) pada node berfungsi dengan benar.  |  10m  |  Ganti atau Reboot  | 
|  ContainerRuntimeReady  |  ContainerRuntimeReady menunjukkan apakah runtime kontainer (containerd, dll.) berfungsi dengan benar dan dapat menjalankan kontainer.  |  30m  |  Ganti  | 
|  DiskPressure  |  DiskPressure adalah kondisi Kubernetes standar yang menunjukkan node mengalami tekanan disk (ruang disk rendah atau I/O tinggi).  |  N/A  |  Tidak ada  | 
|  KernelReady  |  KernelReady menunjukkan apakah kernel berfungsi dengan benar tanpa kesalahan kritis, kepanikan, atau kehabisan sumber daya.  |  30m  |  Ganti  | 
|  MemoryPressure  |  MemoryPressure adalah kondisi Kubernetes standar yang menunjukkan node mengalami tekanan memori (memori yang tersedia rendah).  |  N/A  |  Tidak ada  | 
|  NetworkingReady  |  NetworkingReady menunjukkan apakah tumpukan jaringan node berfungsi dengan benar (antarmuka, perutean, konektivitas).  |  30m  |  Ganti  | 
|  StorageReady  |  StorageReady menunjukkan apakah subsistem penyimpanan node berfungsi dengan benar (disk, sistem file, I/O).  |  30m  |  Ganti  | 
|  Siap  |  Ready adalah kondisi Kubernetes standar yang menunjukkan node sehat dan siap menerima pod.  |  30m  |  Ganti  | 

Tindakan perbaikan node otomatis EKS dinonaktifkan dalam skenario berikut secara default. Tindakan perbaikan node yang sedang berlangsung berlanjut di setiap skenario. Lihat [Konfigurasikan perbaikan node otomatis](#configure-node-repair) cara mengganti pengaturan default ini.

 **Grup simpul terkelola EKS** 
+ Grup node memiliki lebih dari lima node dan lebih dari 20% node dalam kelompok node tidak sehat.
+ Pergeseran zona untuk kluster Anda dipicu melalui Application Recovery Controller (ARC).

 **Mode Otomatis EKS dan Karpenter** 
+ Lebih dari 20% node di dalamnya NodePool tidak sehat.
+ Untuk standalone NodeClaims, 20% node di cluster tidak sehat.

## Konfigurasikan perbaikan node otomatis
<a name="configure-node-repair"></a>

Perbaikan node otomatis tidak dapat dikonfigurasi saat menggunakan Mode Otomatis EKS dan selalu diaktifkan dengan pengaturan default yang sama dengan Karpenter.

### Karpenter
<a name="configure-node-repair-karpenter"></a>

Untuk menggunakan perbaikan node otomatis dengan Karpenter, aktifkan gerbang fitur. `NodeRepair=true` Anda dapat mengaktifkan gerbang fitur melalui opsi `--feature-gates` CLI atau variabel `FEATURE_GATES` lingkungan dalam penyebaran Karpenter. Untuk informasi lebih lanjut, lihat dokumentasi [Karpenter](https://karpenter.sh/docs/concepts/disruption/#node-auto-repair).

### Grup simpul terkelola
<a name="configure-node-repair-mng"></a>

Anda dapat mengaktifkan perbaikan node otomatis saat membuat grup node terkelola EKS baru atau dengan memperbarui grup node terkelola EKS yang ada.
+  **Konsol Amazon EKS** — Pilih kotak centang **Aktifkan perbaikan otomatis node** untuk grup node terkelola. Untuk informasi selengkapnya, lihat [Buat grup node terkelola untuk klaster Anda](create-managed-node-group.md).
+  ** AWS CLI** - Tambahkan `--node-repair-config enabled=true` ke perintah [https://docs.aws.amazon.com/cli/latest/reference/eks/create-nodegroup.html](https://docs.aws.amazon.com/cli/latest/reference/eks/create-nodegroup.html)atau [https://docs.aws.amazon.com/cli/latest/reference/eks/update-nodegroup-config.html](https://docs.aws.amazon.com/cli/latest/reference/eks/update-nodegroup-config.html).
+  **eksctl** [— Konfigurasikan`managedNodeGroups.nodeRepairConfig.enabled: true`, lihat contoh di eksctl. GitHub](https://github.com/eksctl-io/eksctl/blob/main/examples/44-node-repair.yaml)

Saat menggunakan grup node terkelola EKS, Anda dapat mengontrol perilaku perbaikan otomatis node dengan pengaturan berikut.

Untuk mengontrol kapan perbaikan otomatis node berhenti mengambil tindakan, tetapkan ambang batas berdasarkan jumlah node yang tidak sehat dalam grup node. Tetapkan jumlah absolut atau persentase, tetapi tidak keduanya.


| Pengaturan | Deskripsi | 
| --- | --- | 
|   `maxUnhealthyNodeThresholdCount`   |  Jumlah absolut node yang tidak sehat di atas mana perbaikan otomatis node berhenti. Gunakan ini untuk membatasi ruang lingkup perbaikan.  | 
|   `maxUnhealthyNodeThresholdPercentage`   |  Persentase node yang tidak sehat di atas mana perbaikan otomatis node berhenti (0-100).  | 

Untuk mengontrol berapa banyak node perbaikan pada saat yang sama, Anda dapat mengkonfigurasi perbaikan paralelisme. Seperti halnya ambang simpul yang tidak sehat, tetapkan jumlah absolut atau persentase, tetapi tidak keduanya.


| Pengaturan | Deskripsi | 
| --- | --- | 
|   `maxParallelNodesRepairedCount`   |  Jumlah maksimum node untuk diperbaiki secara bersamaan.  | 
|   `maxParallelNodesRepairedPercentage`   |  Persentase maksimum node yang tidak sehat untuk diperbaiki secara bersamaan (0-100).  | 

Dengan`nodeRepairConfigOverrides`, Anda dapat menyesuaikan perilaku perbaikan untuk kondisi tertentu. Gunakan ini ketika Anda memerlukan tindakan perbaikan yang berbeda atau waktu tunggu untuk jenis masalah yang berbeda.

Setiap penggantian membutuhkan semua bidang berikut:


| Bidang | Deskripsi | 
| --- | --- | 
|   `nodeMonitoringCondition`   |  Jenis kondisi node yang dilaporkan oleh agen pemantauan node. Misalnya:`AcceleratedHardwareReady`,`NetworkingReady`,`StorageReady`,`KernelReady`.  | 
|   `nodeUnhealthyReason`   |  Kode alasan spesifik untuk kondisi tidak sehat. Misalnya: `NvidiaXID31Error`, `IPAMDNotRunning`.  | 
|   `minRepairWaitTimeMins`   |  Waktu minimum dalam beberapa menit bahwa kondisi harus bertahan sebelum node memenuhi syarat untuk diperbaiki. Gunakan ini untuk menghindari perbaikan node untuk masalah sementara.  | 
|   `repairAction`   |  Tindakan yang harus diambil ketika kondisi terpenuhi. Nilai yang valid: `Replace` (menghentikan dan mengganti node), `Reboot` (reboot node), atau `NoAction` (tidak ada tindakan perbaikan).  | 

Contoh AWS CLI berikut membuat grup node dengan pengaturan perbaikan kustom.

```
aws eks create-nodegroup \
  --cluster-name my-cluster \
  --nodegroup-name my-nodegroup \
  --node-role arn:aws:iam::111122223333:role/NodeRole \
  --subnets subnet-0123456789abcdef0 \
  --node-repair-config '{
    "enabled": true,
    "maxUnhealthyNodeThresholdPercentage": 10,
    "maxParallelNodesRepairedCount": 3,
    "nodeRepairConfigOverrides": [
      {
        "nodeMonitoringCondition": "AcceleratedHardwareReady",
        "nodeUnhealthyReason": "NvidiaXID64Error",
        "minRepairWaitTimeMins": 5,
        "repairAction": "Replace"
      },
      {
        "nodeMonitoringCondition": "AcceleratedHardwareReady",
        "nodeUnhealthyReason": "NvidiaXID31Error",
        "minRepairWaitTimeMins": 15,
        "repairAction": "NoAction"
      }
    ]
  }'
```

Konfigurasi ini melakukan hal berikut:
+ Mengaktifkan perbaikan otomatis node
+ Menghentikan tindakan perbaikan ketika lebih dari 10% node tidak sehat
+ Memperbaiki hingga 3 node sekaligus
+ Mengganti kesalahan XID 64 (kegagalan pemetaan ulang memori GPU) untuk mengganti node setelah 5 menit. Defaultnya adalah reboot setelah 10 menit.
+ Mengganti kesalahan XID 31 (kesalahan halaman memori GPU) agar tidak mengambil tindakan. Defaultnya adalah reboot setelah 10 menit.