REL06-BP01 Memantau semua komponen untuk beban kerja (Generasi) - AWS Kerangka Well-Architected

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

REL06-BP01 Memantau semua komponen untuk beban kerja (Generasi)

Pantau komponen beban kerja dengan Amazon CloudWatch atau alat pihak ketiga. Memantau AWS layanan dengan AWS Health Dashboard.

Semua komponen beban kerja Anda harus dipantau, termasuk front-end, logika bisnis, dan tingkat penyimpanan. Tetapkan metrik utama, jelaskan cara mengekstraknya dari log (jika diperlukan), dan tetapkan ambang batas untuk menginvokasi peristiwa alarm yang sesuai. Pastikan metrik relevan dengan indikator kinerja utama (KPIs) beban kerja Anda, dan gunakan metrik dan log untuk mengidentifikasi tanda-tanda peringatan dini degradasi layanan. Misalnya, metrik yang terkait dengan hasil bisnis seperti jumlah pesanan yang berhasil diproses per menit, dapat menunjukkan masalah beban kerja lebih cepat daripada metrik teknis, seperti CPU Pemanfaatan. Gunakan AWS Health Dasbor untuk tampilan yang dipersonalisasi tentang kinerja dan ketersediaan AWS layanan yang mendasari AWS sumber daya Anda.

Pemantauan di cloud menawarkan peluang-peluang baru. Sebagian besar penyedia cloud telah mengembangkan kait yang dapat disesuaikan dan dapat memberikan wawasan untuk membantu Anda memantau beberapa lapisan beban kerja Anda. AWS Layanan seperti Amazon CloudWatch menerapkan algoritma statistik dan pembelajaran mesin untuk terus menganalisis metrik sistem dan aplikasi, menentukan garis dasar normal, dan anomali permukaan dengan intervensi pengguna minimal. Algoritma deteksi anomali bertanggung jawab atas perubahan-perubahan musiman dan tren metrik.

AWS membuat banyak informasi pemantauan dan log tersedia untuk konsumsi yang dapat digunakan untuk menentukan metrik, change-in-demand proses, dan mengadopsi teknik pembelajaran mesin spesifik beban kerja terlepas dari keahlian ML.

Selain itu, pantau semua titik akhir eksternal Anda untuk memastikan bahwa mereka tidak bergantung pada implementasi dasar Anda. Pemantauan aktif ini dapat dilakukan dengan transaksi sintetis (kadang-kadang disebut sebagai canary pengguna, tetapi jangan disamakan dengan deployment canary) yang secara berkala menjalankan sejumlah tindakan yang cocok dengan tugas-tugas umum yang dilakukan oleh klien dari beban kerja. Buat tugas-tugas ini berdurasi singkat dan pastikan untuk tidak membebani beban kerja Anda saat melakukan pengujian. Amazon CloudWatch Synthetics memungkinkan Anda membuat kenari sintetis untuk memantau titik akhir Anda dan. APIs Anda juga dapat menggabungkan simpul-simpul klien canary sintetis dengan konsol AWS X-Ray untuk mengidentifikasi canary sintetis mana yang mengalami masalah berupa error, fault, atau tingkat throttling untuk jangka waktu yang dipilih.

Hasil yang Diinginkan:

Kumpulkan dan gunakan metrik-metrik kritis dari semua komponen beban kerja untuk memastikan keandalan beban kerja dan pengalaman pengguna yang optimal. Dengan mendeteksi bahwa sebuah beban kerja tidak mencapai hasil bisnis, Anda dapat dengan cepat mengumumkan terjadinya sebuah bencana dan kemudian segera melakukan pemulihan dari insiden.

Anti-pola umum:

  • Melakukan pemantauan hanya untuk antarmuka eksternal beban kerja Anda.

  • Tidak menghasilkan metrik khusus beban kerja apa pun dan hanya mengandalkan metrik yang diberikan kepada Anda oleh layanan yang digunakan beban kerja Anda. AWS

  • Hanya menggunakan metrik teknis dalam beban kerja Anda dan tidak memantau metrik apa pun yang terkait dengan non-teknis yang disumbangkan KPIs oleh beban kerja.

  • Mengandalkan lalu lintas produksi dan pemeriksaan kondisi sederhana untuk melakukan pemantauan dan evaluasi terhadap status (state) beban kerja.

Manfaat menerapkan praktik terbaik ini: Dengan memantau semua tingkatan di beban kerja Anda akan memungkinkan Anda untuk dapat lebih cepat mengantisipasi dan menyelesaikan masalah di komponen dalam beban kerja.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan: Tinggi

Panduan implementasi

  1. Aktifkan pencatatan log jika tersedia. Data pemantauan harus diperoleh dari semua komponen beban kerja. Aktifkan pencatatan log tambahan, seperti S3 Access Logs, dan mengizinkan beban kerja Anda untuk mencatat log khusus beban kerja. Kumpulkan metrik untukCPU, I/O jaringan, dan rata-rata I/O disk dari layanan seperti Amazon, Amazon, ECS EKS Amazon, Elastic Load EC2 Balancing, dan Amazon. AWS Auto Scaling EMR Lihat AWS Layanan yang Mempublikasikan CloudWatch Metrik untuk daftar AWS layanan yang memublikasikan metrik. CloudWatch

  2. Tinjau semua metrik default dan telusuri celah pengumpulan data apa pun. Setiap layanan menghasilkan metrik default. Dengan mengumpulkan metrik default, Anda dapat lebih memahami dependensi yang terjadi antar komponen beban kerja dan bagaimana keandalan dan kinerja komponen memengaruhi beban kerja tersebut. Anda juga dapat membuat dan mempublikasikan metrik Anda sendiri untuk CloudWatch menggunakan AWS CLI atau. API

  3. Evaluasi semua metrik untuk memutuskan mana yang akan diperingatkan untuk setiap AWS layanan di beban kerja Anda. Anda dapat memilih subset metrik yang memiliki dampak besar terhadap keandalan beban kerja. Berfokus pada metrik-metrik dan ambang batas kritis akan memungkinkan Anda untuk menyempurnakan jumlah peringatan dan dapat membantu Anda meminimalkan positif palsu.

  4. Tetapkan peringatan dan proses pemulihan beban kerja Anda setelah peringatan diinvokasi. Mendefinisikan lansiran memungkinkan Anda untuk dengan cepat memberi tahu, meningkatkan, dan mengikuti langkah-langkah yang diperlukan untuk pulih dari suatu insiden dan memenuhi Tujuan Waktu Pemulihan yang ditentukan (). RTO Anda dapat menggunakan CloudWatch Alarm Amazon untuk menjalankan alur kerja otomatis dan memulai prosedur pemulihan berdasarkan ambang batas yang ditentukan.

  5. Jelajahi penggunaan transaksi sintetis untuk mengumpulkan data yang relevan tentang state beban kerja. Pemantauan sintetis mengikuti rute yang sama dan menjalankan tindakan-tindakan yang sama seperti seorang pelanggan, sehingga memungkinkan Anda untuk terus memverifikasi pengalaman pelanggan Anda bahkan saat Anda tidak memiliki lalu lintas pelanggan apa pun pada beban kerja Anda. Dengan menggunakan transaksi sintetis, Anda dapat menemukan masalah-masalah sebelum para pelanggan Anda menemukannya.

Sumber daya

Praktik-praktik terbaik terkait:

Dokumen terkait:

Blog terkait:

Contoh dan lokakarya terkait: