Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Konfigurasi dan Pemantauan Auto-Rollback
CloudWatch Alarm Amazon adalah prasyarat untuk menggunakan periode pemanggangan di pagar pembatas penyebaran. Anda hanya dapat menggunakan fungsionalitas auto-rollback di pagar pembatas penerapan jika Anda mengatur CloudWatch alarm yang dapat memantau titik akhir. Jika salah satu alarm Anda tersandung selama periode pemantauan yang ditentukan, SageMaker mulailah rollback lengkap ke titik akhir lama untuk melindungi aplikasi Anda. Jika Anda tidak memiliki CloudWatch alarm yang diatur untuk memantau titik akhir Anda, fungsionalitas auto-rollback tidak berfungsi selama penerapan Anda.
Untuk mempelajari lebih lanjut tentang Amazon CloudWatch, lihat Apa itu Amazon CloudWatch? di Panduan CloudWatch Pengguna Amazon.
catatan
Pastikan bahwa peran eksekusi IAM Anda memiliki izin untuk melakukan cloudwatch:DescribeAlarms
tindakan pada alarm auto-rollback yang Anda tentukan.
Contoh Alarm
Untuk membantu Anda memulai, kami memberikan contoh berikut untuk menunjukkan kemampuan CloudWatch alarm. Selain menggunakan atau memodifikasi contoh berikut, Anda dapat membuat alarm sendiri dan mengonfigurasi alarm untuk memantau berbagai metrik pada armada yang ditentukan untuk jangka waktu tertentu. Untuk melihat lebih banyak SageMaker metrik dan dimensi yang dapat Anda tambahkan ke alarm, lihat. Metrik untuk memantau Amazon SageMaker dengan Amazon CloudWatch
Pantau kesalahan pemanggilan pada armada lama dan baru
CloudWatch Alarm berikut memonitor tingkat kesalahan rata-rata titik akhir. Anda dapat menggunakan alarm ini dengan jenis pemindahan lalu lintas pagar pembatas penyebaran apa pun untuk memberikan pemantauan keseluruhan pada armada lama dan baru. Jika alarm tersandung, maka SageMaker mulailah rollback ke armada lama.
Kesalahan pemanggilan yang berasal dari armada lama dan armada baru berkontribusi pada tingkat kesalahan rata-rata. Jika tingkat kesalahan rata-rata melebihi ambang batas yang ditentukan, maka alarm akan tersandung. Contoh khusus ini memantau kesalahan 4xx (kesalahan klien) pada armada lama dan baru selama durasi penerapan. Anda juga dapat memantau kesalahan 5xx (kesalahan server) dengan menggunakan metrikInvocation5XXErrors
.
catatan
Untuk jenis alarm ini, jika armada lama Anda tersandung alarm selama penyebaran, SageMaker menghentikan penyebaran Anda. Oleh karena itu, jika armada produksi Anda saat ini sudah menyebabkan kesalahan, pertimbangkan untuk menggunakan atau memodifikasi salah satu contoh berikut yang hanya memantau armada baru untuk kesalahan.
#Applied deployment type: all types { "AlarmName": "EndToEndDeploymentHighErrorRateAlarm", "AlarmDescription": "Monitors the error rate of 4xx errors", "MetricName": "Invocation4XXErrors", "Namespace": "AWS/SageMaker", "Statistic": "Average", "Dimensions": [ { "Name": "EndpointName", "Value":
<your-endpoint-name>
}, { "Name": "VariantName", "Value": "AllTraffic" } ], "Period": 600, "EvaluationPeriods": 2, "Threshold": 1, "ComparisonOperator": "GreaterThanThreshold", "TreatMissingData": "notBreaching" }
Pada contoh sebelumnya, perhatikan nilai untuk bidang berikut:
Untuk
AlarmName
danAlarmDescription
, masukkan nama dan deskripsi yang Anda pilih untuk alarm.Untuk
MetricName
, gunakan nilaiInvocation4XXErrors
untuk memantau kesalahan 4xx pada titik akhirUntuk
Namespace
, gunakan nilainyaAWS/SageMaker
. Anda juga dapat menentukan metrik kustom Anda sendiri, jika berlaku.Untuk
Statistic
, gunakanAverage
. Ini berarti bahwa alarm mengambil tingkat kesalahan rata-rata selama periode evaluasi saat menghitung apakah tingkat kesalahan telah melebihi ambang batas.Untuk dimensi
EndpointName
, gunakan nama titik akhir yang Anda perbarui sebagai nilainya.Untuk dimensi
VariantName
, gunakan nilaiAllTraffic
untuk menentukan semua lalu lintas titik akhir.Untuk
Period
, gunakan600
. Ini mengatur periode evaluasi alarm menjadi 10 menit.Untuk
EvaluationPeriods
, gunakan2
. Nilai ini memberi tahu alarm untuk mempertimbangkan dua periode evaluasi terbaru saat menentukan status alarm.
Pantau latensi model pada armada baru
Contoh CloudWatch alarm berikut memonitor latensi model armada baru selama penerapan Anda. Anda dapat menggunakan alarm ini untuk memantau hanya armada baru dan mengecualikan armada lama. Alarm berlangsung untuk seluruh penyebaran. Contoh ini memberi Anda end-to-end pemantauan armada baru yang komprehensif dan memulai rollback ke armada lama jika armada baru memiliki masalah waktu respons.
CloudWatch menerbitkan metrik dengan dimensi EndpointConfigName:{New-Ep-Config}
setelah armada baru mulai menerima lalu lintas, dan metrik ini bertahan bahkan setelah penerapan selesai.
Anda dapat menggunakan contoh alarm berikut dengan jenis penerapan apa pun.
#Applied deployment type: all types { "AlarmName": "NewEndpointConfigVersionHighModelLatencyAlarm", "AlarmDescription": "Monitors the model latency on new fleet", "MetricName": "ModelLatency", "Namespace": "AWS/SageMaker", "Statistic": "Average", "Dimensions": [ { "Name": "EndpointName", "Value":
<your-endpoint-name>
}, { "Name": "VariantName", "Value": "AllTraffic" }, { "Name": "EndpointConfigName", "Value":<your-config-name>
], "Period": 300, "EvaluationPeriods": 2, "Threshold": 100000, # 100ms "ComparisonOperator": "GreaterThanThreshold", "TreatMissingData": "notBreaching" }
Pada contoh sebelumnya, perhatikan nilai untuk bidang berikut:
Untuk
MetricName
, gunakan nilaiModelLatency
untuk memantau waktu respons model.Untuk
Namespace
, gunakan nilainyaAWS/SageMaker
. Anda juga dapat menentukan metrik kustom Anda sendiri, jika berlaku.Untuk dimensi
EndpointName
, gunakan nama titik akhir yang Anda perbarui sebagai nilainya.Untuk dimensi
VariantName
, gunakan nilaiAllTraffic
untuk menentukan semua lalu lintas titik akhir.Untuk dimensi
EndpointConfigName
, nilai harus merujuk ke nama konfigurasi titik akhir untuk titik akhir baru atau yang diperbarui.
catatan
Jika Anda ingin memantau armada lama Anda alih-alih armada baru, Anda dapat mengubah dimensi EndpointConfigName
untuk menentukan nama konfigurasi armada lama Anda.