Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Opsi yang mengkhawatirkan dengan CloudWatch
Melakukan analisis metrik penting satu kali dan otomatis membantu Anda mendeteksi dan menyelesaikan masalah sebelum berdampak pada beban kerja Anda. CloudWatch membuatnya mudah untuk membuat grafik dan membandingkan beberapa metrik dengan menggunakan beberapa statistik selama periode waktu tertentu. Anda dapat menggunakan CloudWatch untuk mencari di semua metrik dengan nilai dimensi yang diperlukan untuk menemukan metrik yang Anda butuhkan untuk analisis Anda.
Kami menyarankan Anda memulai pendekatan pengambilan metrik dengan menyertakan kumpulan metrik dan dimensi awal yang akan digunakan sebagai dasar untuk memantau beban kerja. Seiring waktu, beban kerja menjadi matang dan Anda dapat menambahkan metrik dan dimensi tambahan untuk membantu Anda menganalisis dan mendukungnya lebih lanjut. Aplikasi atau beban kerja Anda mungkin menggunakan beberapa AWS sumber daya dan memiliki metrik kustom sendiri, Anda harus mengelompokkan sumber daya ini di bawah namespace agar lebih mudah diidentifikasi.
Anda juga harus mempertimbangkan bagaimana pencatatan dan pemantauan data berkorelasi sehingga Anda dapat dengan cepat mengidentifikasi data pencatatan dan pemantauan yang relevan untuk mendiagnosis masalah tertentu. Anda dapat menggunakan peta AWS X-Ray jejak untuk mengkorelasikan jejak, metrik, log, dan alarm untuk mendiagnosis masalah. Anda juga harus mempertimbangkan untuk menyertakan dimensi tambahan dalam metrik dan pengidentifikasi dalam log untuk beban kerja Anda guna membantu Anda mencari dan mengidentifikasi masalah dengan cepat di seluruh sistem dan layanan.
Menggunakan CloudWatch alarm untuk memantau dan alarm
Anda dapat menggunakan CloudWatch alarm untuk mengurangi pemantauan manual dalam beban kerja atau aplikasi Anda. Anda harus mulai dengan meninjau metrik yang Anda tangkap untuk setiap komponen beban kerja dan menentukan ambang batas yang sesuai untuk setiap metrik. Pastikan Anda mengidentifikasi anggota tim mana yang harus diberi tahu ketika ambang batas dilanggar. Anda harus membuat dan menargetkan grup distribusi, bukan anggota tim individu.
CloudWatch alarm dapat diintegrasikan dengan solusi manajemen layanan Anda untuk secara otomatis membuat tiket baru dan menjalankan alur kerja operasional. Misalnya, AWS menyediakan Konektor Manajemen AWS Layanan untuk ServiceNowdan AWS Service Management Connectoruntuk membantu Anda mengatur integrasi dengan cepat. Pendekatan ini sangat penting untuk memastikan bahwa alarm yang dinaikkan diakui dan diselaraskan dengan alur kerja operasi Anda yang ada yang mungkin sudah ditentukan dalam produk ini.
Anda juga dapat membuat beberapa alarm untuk metrik yang sama yang memiliki ambang batas dan periode evaluasi yang berbeda, yang membantu membangun proses eskalasi. Misalnya, jika Anda memiliki OrderQueueDepth
metrik yang melacak pesanan pelanggan, Anda dapat menentukan ambang batas yang lebih rendah selama periode rata-rata satu menit singkat yang memberi tahu anggota tim aplikasi melalui email atau Slack. Anda juga dapat menentukan alarm lain untuk metrik yang sama selama periode 15 menit yang lebih lama pada ambang batas yang sama dan halaman itu, email, dan memberi tahu tim aplikasi dan pemimpin tim aplikasi. Terakhir, Anda dapat menentukan alarm ketiga untuk ambang batas rata-rata keras selama periode 30 menit yang memberi tahu manajemen atas dan memberi tahu semua anggota tim yang diberi tahu sebelumnya. Membuat beberapa alarm membantu Anda mengambil tindakan yang berbeda untuk kondisi yang berbeda. Anda dapat memulai dengan proses pemberitahuan sederhana dan kemudian menyesuaikan dan memperbaikinya sesuai kebutuhan.
Menggunakan deteksi CloudWatch anomali untuk memantau dan alarm
Anda dapat menggunakan deteksi CloudWatch anomali jika Anda tidak yakin tentang ambang batas untuk mengajukan metrik tertentu atau jika Anda ingin alarm menyesuaikan nilai ambang batas secara otomatis berdasarkan nilai historis yang diamati. CloudWatch Deteksi anomali sangat berguna untuk metrik yang mungkin memiliki perubahan aktivitas yang teratur dan dapat diprediksi, misalnya, pesanan pembelian harian untuk pengiriman di hari yang sama meningkat sebelum batas waktu. Deteksi anomali memungkinkan ambang batas yang menyesuaikan secara otomatis dan dapat membantu mengurangi alarm palsu. Anda dapat mengaktifkan deteksi anomali untuk setiap metrik dan statistik, dan CloudWatch mengkonfigurasi alarm berdasarkan outlier.
Misalnya, Anda dapat mengaktifkan deteksi anomali untuk CPUUtilization
metrik dan AVG
statistik pada sebuah EC2 instance. Deteksi anomali kemudian menggunakan data historis hingga 14 hari untuk membuat model pembelajaran mesin (ML). Anda dapat membuat beberapa alarm dengan pita deteksi anomali yang berbeda untuk membuat proses eskalasi alarm, mirip dengan membuat beberapa alarm standar dengan ambang batas yang berbeda.
Untuk informasi selengkapnya tentang bagian ini, lihat Membuat CloudWatch alarm berdasarkan deteksi anomali dalam dokumentasi. CloudWatch
Mengkhawatirkan di beberapa Wilayah dan akun
Pemilik aplikasi dan beban kerja harus membuat alarm tingkat aplikasi untuk beban kerja yang menjangkau beberapa Wilayah. Sebaiknya buat alarm terpisah di setiap akun dan Wilayah tempat beban kerja Anda digunakan. Anda dapat menyederhanakan dan mengotomatiskan proses ini dengan menggunakan akun dan Region agnostik AWS CloudFormation StackSets dan template untuk menyebarkan sumber daya aplikasi dengan alarm yang diperlukan. templateYou dapat mengonfigurasi tindakan alarm untuk menargetkan topik Amazon Simple Notification Service (AmazonSNS) yang umum, yang berarti pemberitahuan atau tindakan remediasi yang sama digunakan terlepas dari akun atau Wilayah.
Di lingkungan multi-akun dan Multi-wilayah, kami menyarankan Anda membuat alarm agregat untuk akun dan Wilayah Anda untuk memantau masalah akun dan Regional dengan menggunakan AWS CloudFormation
StackSets dan agregat metrik, seperti rata-rata di semua instans. CPUUtilization
EC2
Anda juga harus mempertimbangkan untuk membuat alarm standar untuk setiap beban kerja yang dikonfigurasi untuk CloudWatch metrik standar dan log yang Anda ambil. Misalnya, Anda dapat membuat alarm terpisah untuk setiap EC2 instance yang memantau metrik CPU pemanfaatan dan memberi tahu tim operasi pusat ketika CPU pemanfaatan rata-rata lebih dari 80% setiap hari. Anda juga dapat membuat alarm standar yang memantau CPU penggunaan rata-rata di bawah 10% setiap hari. Alarm ini membantu tim operasi pusat untuk bekerja dengan pemilik beban kerja tertentu untuk mengubah ukuran EC2 instans bila diperlukan.
Mengotomatiskan pembuatan alarm dengan tag EC2 instance
Membuat seperangkat alarm standar untuk EC2 instans Anda dapat memakan waktu, tidak konsisten, dan rawan kesalahan. Anda dapat mempercepat proses pembuatan alarm dengan menggunakan amazon-cloudwatch-auto-alarms