Konfigurasi dan Pemantauan Auto-Rollback - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konfigurasi dan Pemantauan Auto-Rollback

CloudWatch Alarm Amazon adalah prasyarat untuk menggunakan periode pemanggangan di pagar pembatas penyebaran. Anda hanya dapat menggunakan fungsionalitas auto-rollback di pagar pembatas penerapan jika Anda mengatur CloudWatch alarm yang dapat memantau titik akhir. Jika salah satu alarm Anda tersandung selama periode pemantauan yang ditentukan, SageMaker mulailah rollback lengkap ke titik akhir lama untuk melindungi aplikasi Anda. Jika Anda tidak memiliki CloudWatch alarm yang diatur untuk memantau titik akhir Anda, fungsionalitas auto-rollback tidak berfungsi selama penerapan Anda.

Untuk mempelajari lebih lanjut tentang Amazon CloudWatch, lihat Apa itu Amazon CloudWatch? di Panduan CloudWatch Pengguna Amazon.

catatan

Pastikan bahwa peran eksekusi IAM Anda memiliki izin untuk melakukan cloudwatch:DescribeAlarms tindakan pada alarm auto-rollback yang Anda tentukan.

Contoh Alarm

Untuk membantu Anda memulai, kami memberikan contoh berikut untuk menunjukkan kemampuan CloudWatch alarm. Selain menggunakan atau memodifikasi contoh berikut, Anda dapat membuat alarm sendiri dan mengonfigurasi alarm untuk memantau berbagai metrik pada armada yang ditentukan untuk jangka waktu tertentu. Untuk melihat lebih banyak SageMaker metrik dan dimensi yang dapat Anda tambahkan ke alarm, lihat. Metrik untuk memantau Amazon SageMaker dengan Amazon CloudWatch

Pantau kesalahan pemanggilan pada armada lama dan baru

CloudWatch Alarm berikut memonitor tingkat kesalahan rata-rata titik akhir. Anda dapat menggunakan alarm ini dengan jenis pemindahan lalu lintas pagar pembatas penyebaran apa pun untuk memberikan pemantauan keseluruhan pada armada lama dan baru. Jika alarm tersandung, maka SageMaker mulailah rollback ke armada lama.

Kesalahan pemanggilan yang berasal dari armada lama dan armada baru berkontribusi pada tingkat kesalahan rata-rata. Jika tingkat kesalahan rata-rata melebihi ambang batas yang ditentukan, maka alarm akan tersandung. Contoh khusus ini memantau kesalahan 4xx (kesalahan klien) pada armada lama dan baru selama durasi penerapan. Anda juga dapat memantau kesalahan 5xx (kesalahan server) dengan menggunakan metrikInvocation5XXErrors.

catatan

Untuk jenis alarm ini, jika armada lama Anda tersandung alarm selama penyebaran, SageMaker menghentikan penyebaran Anda. Oleh karena itu, jika armada produksi Anda saat ini sudah menyebabkan kesalahan, pertimbangkan untuk menggunakan atau memodifikasi salah satu contoh berikut yang hanya memantau armada baru untuk kesalahan.

#Applied deployment type: all types { "AlarmName": "EndToEndDeploymentHighErrorRateAlarm", "AlarmDescription": "Monitors the error rate of 4xx errors", "MetricName": "Invocation4XXErrors", "Namespace": "AWS/SageMaker", "Statistic": "Average", "Dimensions": [ { "Name": "EndpointName", "Value": <your-endpoint-name> }, { "Name": "VariantName", "Value": "AllTraffic" } ], "Period": 600, "EvaluationPeriods": 2, "Threshold": 1, "ComparisonOperator": "GreaterThanThreshold", "TreatMissingData": "notBreaching" }

Pada contoh sebelumnya, perhatikan nilai untuk bidang berikut:

  • Untuk AlarmName danAlarmDescription, masukkan nama dan deskripsi yang Anda pilih untuk alarm.

  • UntukMetricName, gunakan nilai Invocation4XXErrors untuk memantau kesalahan 4xx pada titik akhir

  • UntukNamespace, gunakan nilainyaAWS/SageMaker. Anda juga dapat menentukan metrik kustom Anda sendiri, jika berlaku.

  • UntukStatistic, gunakanAverage. Ini berarti bahwa alarm mengambil tingkat kesalahan rata-rata selama periode evaluasi saat menghitung apakah tingkat kesalahan telah melebihi ambang batas.

  • Untuk dimensiEndpointName, gunakan nama titik akhir yang Anda perbarui sebagai nilainya.

  • Untuk dimensiVariantName, gunakan nilai AllTraffic untuk menentukan semua lalu lintas titik akhir.

  • UntukPeriod, gunakan600. Ini mengatur periode evaluasi alarm menjadi 10 menit.

  • UntukEvaluationPeriods, gunakan2. Nilai ini memberi tahu alarm untuk mempertimbangkan dua periode evaluasi terbaru saat menentukan status alarm.

Pantau latensi model pada armada baru

Contoh CloudWatch alarm berikut memonitor latensi model armada baru selama penerapan Anda. Anda dapat menggunakan alarm ini untuk memantau hanya armada baru dan mengecualikan armada lama. Alarm berlangsung untuk seluruh penyebaran. Contoh ini memberi Anda end-to-end pemantauan armada baru yang komprehensif dan memulai rollback ke armada lama jika armada baru memiliki masalah waktu respons.

CloudWatch menerbitkan metrik dengan dimensi EndpointConfigName:{New-Ep-Config} setelah armada baru mulai menerima lalu lintas, dan metrik ini bertahan bahkan setelah penerapan selesai.

Anda dapat menggunakan contoh alarm berikut dengan jenis penerapan apa pun.

#Applied deployment type: all types { "AlarmName": "NewEndpointConfigVersionHighModelLatencyAlarm", "AlarmDescription": "Monitors the model latency on new fleet", "MetricName": "ModelLatency", "Namespace": "AWS/SageMaker", "Statistic": "Average", "Dimensions": [ { "Name": "EndpointName", "Value": <your-endpoint-name> }, { "Name": "VariantName", "Value": "AllTraffic" }, { "Name": "EndpointConfigName", "Value": <your-config-name> ], "Period": 300, "EvaluationPeriods": 2, "Threshold": 100000, # 100ms "ComparisonOperator": "GreaterThanThreshold", "TreatMissingData": "notBreaching" }

Pada contoh sebelumnya, perhatikan nilai untuk bidang berikut:

  • UntukMetricName, gunakan nilai ModelLatency untuk memantau waktu respons model.

  • UntukNamespace, gunakan nilainyaAWS/SageMaker. Anda juga dapat menentukan metrik kustom Anda sendiri, jika berlaku.

  • Untuk dimensiEndpointName, gunakan nama titik akhir yang Anda perbarui sebagai nilainya.

  • Untuk dimensiVariantName, gunakan nilai AllTraffic untuk menentukan semua lalu lintas titik akhir.

  • Untuk dimensiEndpointConfigName, nilai harus merujuk ke nama konfigurasi titik akhir untuk titik akhir baru atau yang diperbarui.

catatan

Jika Anda ingin memantau armada lama Anda alih-alih armada baru, Anda dapat mengubah dimensi EndpointConfigName untuk menentukan nama konfigurasi armada lama Anda.