Opsi yang mengkhawatirkan dengan CloudWatch - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Opsi yang mengkhawatirkan dengan CloudWatch

Melakukan analisis satu kali dan otomatis terhadap metrik penting membantu Anda mendeteksi dan menyelesaikan masalah sebelum memengaruhi beban kerja Anda. CloudWatch memudahkan grafik dan membandingkan beberapa metrik dengan menggunakan beberapa statistik selama periode waktu tertentu. Anda dapat menggunakan CloudWatch untuk mencari di semua metrik dengan nilai dimensi yang diperlukan untuk menemukan metrik yang Anda butuhkan untuk analisis Anda.

Sebaiknya Anda memulai pendekatan penangkapan metrik dengan menyertakan serangkaian metrik dan dimensi awal untuk digunakan sebagai dasar untuk memantau beban kerja. Seiring waktu, beban kerja jatuh tempo dan Anda dapat menambahkan metrik dan dimensi tambahan untuk membantu Anda menganalisis dan mendukungnya lebih lanjut. Aplikasi atau beban kerja Anda mungkin menggunakan beberapaAWSsumber daya dan memiliki metrik kustom mereka sendiri, Anda harus mengelompokkan sumber daya ini di bawah namespace untuk membuatnya lebih mudah untuk mengidentifikasi.

Anda juga harus mempertimbangkan bagaimana data pencatatan dan pemantauan berkorelasi sehingga Anda dapat dengan cepat mengidentifikasi data pencatatan dan pemantauan yang relevan untuk mendiagnosis masalah tertentu. Anda dapat menggunakanServiceLensuntuk mengkorelasikan jejak, metrik, log, dan alarm untuk mendiagnosis masalah. Anda juga harus mempertimbangkan menyertakan dimensi tambahan dalam metrik dan pengidentifikasi dalam log untuk beban kerja Anda untuk membantu Anda mencari dan mengidentifikasi masalah di seluruh sistem dan layanan dengan cepat.

Menggunakan CloudWatch alarm untuk memantau dan alarm

Anda dapat menggunakanAlarm CloudWatchuntuk mengurangi pemantauan manual dalam beban kerja atau aplikasi Anda. Anda harus mulai dengan meninjau metrik yang Anda tangkap untuk setiap komponen beban kerja dan menentukan ambang batas yang sesuai untuk setiap metrik. Pastikan bahwa Anda mengidentifikasi anggota tim mana yang harus diberi tahu ketika ambang batas dilanggar. Anda harus menetapkan dan menargetkan kelompok distribusi, bukan anggota tim individual.

Alarm CloudWatch dapat berintegrasi dengan solusi manajemen layanan Anda untuk secara otomatis membuat tiket baru dan menjalankan alur kerja operasional. Misalnya,AWSmenyediakanAWSKonektor Manajemen untukServiceNowdanMeja Layanan Jirauntuk membantu Anda dengan cepat mengatur integrasi. Pendekatan ini sangat penting untuk memastikan bahwa alarm yang diangkat diakui dan selaras dengan alur kerja operasi yang ada yang mungkin sudah didefinisikan dalam produk ini.

Anda juga dapat membuat beberapa alarm untuk metrik yang sama yang memiliki ambang batas dan periode evaluasi yang berbeda, yang membantu membangun proses eskalasi. Misalnya, jika Anda memilikiOrderQueueDepthmetrik yang melacak pesanan pelanggan, Anda mungkin menentukan ambang batas yang lebih rendah selama periode rata-rata satu menit singkat yang memberitahukan anggota tim aplikasi melalui email atauKendur. Anda juga dapat menentukan alarm lain untuk metrik yang sama selama periode 15 menit yang lebih lama pada ambang yang sama dan halaman, email, dan memberi tahu tim aplikasi dan tim aplikasi memimpin. Akhirnya, Anda dapat menentukan alarm ketiga untuk ambang batas rata-rata keras selama periode 30 menit yang memberitahukan manajemen atas dan memberi tahu semua anggota tim yang sebelumnya diberi tahu. Membuat beberapa alarm membantu Anda mengambil tindakan yang berbeda untuk kondisi yang berbeda. Anda dapat mulai dengan proses notifikasi sederhana dan kemudian menyesuaikan dan memperbaikinya sesuai kebutuhan.

Menggunakan CloudWatch deteksi anomali untuk memantau dan alarm

Anda dapat menggunakanDeteksi anomali CloudWatchjika Anda tidak yakin tentang ambang batas untuk mengajukan metrik tertentu atau jika Anda ingin alarm menyesuaikan nilai ambang batas secara otomatis berdasarkan nilai historis yang diamati. CloudWatch Deteksi anomali sangat berguna untuk metrik yang mungkin memiliki perubahan aktivitas yang teratur dan dapat diprediksi, misalnya, pesanan pembelian harian untuk pengiriman hari yang sama meningkat sebelum waktu cutoff. Deteksi anomali memungkinkan ambang batas yang menyesuaikan secara otomatis dan dapat membantu mengurangi alarm palsu. Anda dapat mengaktifkan deteksi anomali untuk setiap metrik dan statistik, dan mengkonfigurasi CloudWatch alarm berdasarkan outlier.

Misalnya, Anda dapat mengaktifkan deteksi anomali untukCPUUtilizationmetrik danAVGstatistik pada instans EC2. Deteksi anomali kemudian menggunakan data historis hingga 14 hari untuk membuat model machine learning (ML). Anda dapat membuat beberapa alarm dengan band deteksi anomali yang berbeda untuk membuat proses eskalasi alarm, mirip dengan membuat beberapa alarm standar dengan ambang batas yang berbeda.

Untuk informasi selengkapnya tentang bagian ini, lihatMembuat alarm CloudWatch berdasarkan pada deteksi anomalidi CloudWatch dokumentasi.

Mengkhawatirkan di beberapa Wilayah dan akun

Pemilik aplikasi dan beban kerja harus membuat alarm tingkat aplikasi untuk beban kerja yang mencakup beberapa Wilayah. Sebaiknya buat alarm terpisah di setiap akun dan Wilayah yang digunakan beban kerja Anda. Anda dapat menyederhanakan dan mengotomatisasi proses ini dengan menggunakan akun dan Wilayah agnostikAWS CloudFormation StackSets dan template untuk menyebarkan sumber daya aplikasi dengan alarm yang diperlukan. templateAnda dapat mengkonfigurasi tindakan alarm untuk menargetkan topik Amazon Simple Notification Service (Amazon SNS) umum, yang berarti tindakan pemberitahuan atau remediasi yang sama digunakan terlepas dari akun atau Wilayah.

Di lingkungan multi-akun dan Multi-wilayah, kami menyarankan agar Anda membuat alarm gabungan untuk akun dan Wilayah Anda untuk memantau masalah akun dan Regional dengan menggunakanAWS CloudFormation StackSets dan metrik agregat, seperti rata-rataCPUUtilizationdi semua instans EC2.

Anda juga harus mempertimbangkan untuk membuat alarm standar untuk setiap beban kerja yang dikonfigurasi untuk standar CloudWatch metrik dan log yang Anda tangkap. Misalnya, Anda dapat membuat alarm terpisah untuk setiap instans EC2 yang memonitor metrik pemanfaatan CPU dan memberi tahu tim operasi pusat ketika pemanfaatan CPU rata-rata lebih dari 80% setiap hari. Anda juga dapat membuat alarm standar yang memonitor pemanfaatan CPU rata-rata di bawah 10% setiap hari. Alarm ini membantu tim operasi pusat untuk bekerja dengan pemilik beban kerja tertentu untuk mengubah ukuran instans EC2 bila diperlukan.

Mengotomatisasi pembuatan alarm dengan tag instans EC2

Membuat seperangkat alarm standar untuk instans EC2 Anda dapat memakan waktu, tidak konsisten, dan rawan kesalahan. Anda dapat mempercepat proses pembuatan alarm dengan menggunakanamazon-cloudwatch-auto-alarmsolusi untuk secara otomatis membuat satu set standar alarm CloudWatch untuk instans EC2 Anda dan membuat alarm kustom berdasarkan tag instans EC2. Solusi ini menghilangkan kebutuhan untuk membuat alarm standar secara manual dan dapat berguna selama migrasi skala besar instans EC2 yang menggunakan alat seperti CloudEndure. Anda juga dapat menerapkan solusi ini denganAWS CloudFormation StackSets untuk mendukung beberapa Wilayah dan akun. Untuk informasi selengkapnya, lihatMenggunakan tag untuk membuat dan memelihara Amazon CloudWatch alarm untuk instans Amazon EC2padaAWSBlog.