Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Secara otomatis menskalakan Konkurensi yang Disediakan untuk titik akhir tanpa server
Amazon SageMaker secara otomatis menskalakan atau keluar titik akhir tanpa server sesuai permintaan. Untuk endpoint tanpa server dengan Provisioned Concurrency, Anda dapat menggunakan Application Auto Scaling untuk meningkatkan atau menurunkan Provisioned Concurrency berdasarkan profil lalu lintas Anda, sehingga mengoptimalkan biaya.
Berikut ini adalah prasyarat untuk skala otomatis Provisioned Concurrency pada titik akhir tanpa server:
Sebelum Anda dapat menggunakan penskalaan otomatis, Anda harus telah menerapkan model ke titik akhir tanpa server dengan Provisioned Concurrency. Model yang digunakan disebut sebagai varian produksi. Lihat Buat konfigurasi titik akhir dan Buat titik akhir untuk informasi selengkapnya tentang penerapan model ke titik akhir tanpa server dengan Provisioned Concurrency. Untuk menentukan metrik dan nilai target untuk kebijakan penskalaan, Anda harus mengonfigurasi kebijakan penskalaan. Untuk informasi selengkapnya tentang cara menentukan kebijakan penskalaan, lihatMenentukan kebijakan penskalaan. Setelah mendaftarkan model Anda dan menentukan kebijakan penskalaan, terapkan kebijakan penskalaan ke model terdaftar. Untuk informasi tentang cara menerapkan kebijakan penskalaan, lihatMenerapkan kebijakan penskalaan.
Daftarkan model
Untuk menambahkan penskalaan otomatis ke titik akhir tanpa server dengan Provisioned Concurrency, Anda harus terlebih dahulu mendaftarkan model Anda (varian produksi) menggunakan atau Application Auto Scaling. AWS CLI API
Daftarkan model (AWS CLI)
Untuk mendaftarkan model Anda, gunakan register-scalable-target
AWS CLI perintah dengan parameter berikut:
-
--service-namespace
– Atur nilai ini kesagemaker
. -
--resource-id
— Pengidentifikasi sumber daya untuk model (khususnya varian produksi). Untuk parameter ini, tipe sumber daya adalahendpoint
dan pengidentifikasi unik adalah nama varian produksi. Sebagai contoh,endpoint/MyEndpoint/variant/MyVariant
. -
--scalable-dimension
– Atur nilai ini kesagemaker:variant:DesiredProvisionedConcurrency
. -
--min-capacity
— Jumlah minimum Provisioned Concurrency untuk model. Setel--min-capacity
ke setidaknya 1. Itu harus sama dengan atau kurang dari nilai yang ditentukan untuk--max-capacity
. -
--max-capacity
— Jumlah maksimum Provisioned Concurrency yang harus diaktifkan melalui Application Auto Scaling. Setel--max-capacity
ke minimal 1. Itu harus lebih besar dari atau sama dengan nilai yang ditentukan untuk--min-capacity
.
Contoh berikut menunjukkan cara mendaftarkan model bernama MyVariant
yang diskalakan secara dinamis untuk memiliki 1 hingga 10 nilai Konkurensi yang Disediakan:
aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \ --resource-id endpoint/MyEndpoint/variant/MyVariant \ --min-capacity 1 \ --max-capacity 10
Daftarkan model (Application Auto API Scaling)
Untuk mendaftarkan model Anda, gunakan API tindakan RegisterScalableTarget
Application Auto Scaling dengan parameter berikut:
-
ServiceNamespace
– Atur nilai ini kesagemaker
. -
ResourceId
— Pengidentifikasi sumber daya untuk model (khususnya varian produksi). Untuk parameter ini, tipe sumber daya adalahendpoint
dan pengidentifikasi unik adalah nama varian produksi. Sebagai contoh,endpoint/MyEndpoint/variant/MyVariant
. -
ScalableDimension
– Atur nilai ini kesagemaker:variant:DesiredProvisionedConcurrency
. -
MinCapacity
— Jumlah minimum Provisioned Concurrency untuk model. SetelMinCapacity
ke setidaknya 1. Itu harus sama dengan atau kurang dari nilai yang ditentukan untukMaxCapacity
. -
MaxCapacity
— Jumlah maksimum Provisioned Concurrency yang harus diaktifkan melalui Application Auto Scaling. SetelMaxCapacity
ke minimal 1. Itu harus lebih besar dari atau sama dengan nilai yang ditentukan untukMinCapacity
.
Contoh berikut menunjukkan cara mendaftarkan model bernama MyVariant
yang diskalakan secara dinamis untuk memiliki 1 hingga 10 nilai Konkurensi yang Disediakan:
POST / HTTP/1.1 Host: autoscaling.us-east-2.amazonaws.com Accept-Encoding: identity X-Amz-Target: AnyScaleFrontendService.RegisterScalableTarget X-Amz-Date: 20160506T182145Z User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8 Content-Type: application/x-amz-json-1.1 Authorization: AUTHPARAMS { "ServiceNamespace": "sagemaker", "ResourceId": "endpoint/MyEndPoint/variant/MyVariant", "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency", "MinCapacity": 1, "MaxCapacity": 10 }
Menentukan kebijakan penskalaan
Untuk menentukan metrik dan nilai target untuk kebijakan penskalaan, Anda dapat mengonfigurasi kebijakan penskalaan pelacakan target. Tentukan kebijakan penskalaan sebagai JSON blok dalam file teks. Anda kemudian dapat menggunakan file teks tersebut saat menjalankan AWS CLI atau Application Auto API Scaling. Untuk menentukan kebijakan penskalaan pelacakan target dengan cepat untuk titik akhir tanpa server, gunakan metrik yang telah ditentukan sebelumnya. SageMakerVariantProvisionedConcurrencyUtilization
{ "TargetValue": 0.5, "PredefinedMetricSpecification": { "PredefinedMetricType": "SageMakerVariantProvisionedConcurrencyUtilization" }, "ScaleOutCooldown": 1, "ScaleInCooldown": 1 }
Menerapkan kebijakan penskalaan
Setelah mendaftarkan model, Anda dapat menerapkan kebijakan penskalaan ke titik akhir tanpa server dengan Provisioned Concurrency. Lihat Menerapkan kebijakan penskalaan pelacakan target untuk menerapkan kebijakan penskalaan pelacakan target yang telah Anda tetapkan. Jika arus lalu lintas ke titik akhir tanpa server Anda memiliki rutinitas yang dapat diprediksi, alih-alih menerapkan kebijakan penskalaan pelacakan target, Anda mungkin ingin menjadwalkan tindakan penskalaan pada waktu tertentu. Untuk informasi selengkapnya tentang penjadwalan tindakan penskalaan, lihat. Penskalaan terjadwal
Menerapkan kebijakan penskalaan pelacakan target
Anda dapat menggunakan Application Auto Scaling AWS CLI atau Application Auto Scaling API untuk menerapkan kebijakan penskalaan pelacakan target ke titik akhir tanpa server Anda dengan Provisioned Concurrency. AWS Management Console
Menerapkan kebijakan penskalaan pelacakan target ()AWS CLI
Untuk menerapkan kebijakan penskalaan pada model Anda, gunakan perintah put-scaling-policy
AWS CLI; dengan parameter berikut:
-
--policy-name
– Nama kebijakan penskalaan. -
--policy-type
– Atur nilai ini keTargetTrackingScaling
. -
--resource-id
— Pengidentifikasi sumber daya untuk varian. Untuk parameter ini, tipe sumber daya adalahendpoint
dan pengidentifikasi unik adalah nama varian. Sebagai contoh,endpoint/MyEndpoint/variant/MyVariant
. -
--service-namespace
– Atur nilai ini kesagemaker
. -
--scalable-dimension
– Atur nilai ini kesagemaker:variant:DesiredProvisionedConcurrency
. -
--target-tracking-scaling-policy-configuration
— Konfigurasi kebijakan penskalaan pelacakan target yang akan digunakan untuk model.
Contoh berikut menunjukkan cara menerapkan kebijakan penskalaan pelacakan target yang diberi nama MyScalingPolicy
ke model bernama. MyVariant
Konfigurasi kebijakan disimpan dalam file bernamascaling-policy.json
.
aws application-autoscaling put-scaling-policy \ --policy-name MyScalingPolicy \ --policy-type TargetTrackingScaling \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \ --resource-id endpoint/MyEndpoint/variant/MyVariant \ --target-tracking-scaling-policy-configuration file://[file-localtion]/scaling-policy.json
Menerapkan kebijakan penskalaan pelacakan target (Application Auto Scaling) API
Untuk menerapkan kebijakan penskalaan pada model Anda, gunakan tindakan PutScalingPolicy
Application Auto API Scaling dengan parameter berikut:
-
PolicyName
– Nama kebijakan penskalaan. -
PolicyType
– Atur nilai ini keTargetTrackingScaling
. -
ResourceId
— Pengidentifikasi sumber daya untuk varian. Untuk parameter ini, tipe sumber daya adalahendpoint
dan pengidentifikasi unik adalah nama varian. Sebagai contoh,endpoint/MyEndpoint/variant/MyVariant
. -
ServiceNamespace
– Atur nilai ini kesagemaker
. -
ScalableDimension
– Atur nilai ini kesagemaker:variant:DesiredProvisionedConcurrency
. -
TargetTrackingScalingPolicyConfiguration
— Konfigurasi kebijakan penskalaan pelacakan target yang akan digunakan untuk model.
Contoh berikut menunjukkan cara menerapkan kebijakan penskalaan pelacakan target yang diberi nama MyScalingPolicy
ke model bernama. MyVariant
Konfigurasi kebijakan disimpan dalam file bernamascaling-policy.json
.
POST / HTTP/1.1 Host: autoscaling.us-east-2.amazonaws.com Accept-Encoding: identity X-Amz-Target: AnyScaleFrontendService.PutScalingPolicy X-Amz-Date: 20160506T182145Z User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8 Content-Type: application/x-amz-json-1.1 Authorization: AUTHPARAMS { "PolicyName": "MyScalingPolicy", "ServiceNamespace": "sagemaker", "ResourceId": "endpoint/MyEndpoint/variant/MyVariant", "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency", "PolicyType": "TargetTrackingScaling", "TargetTrackingScalingPolicyConfiguration": { "TargetValue": 0.5, "PredefinedMetricSpecification": { "PredefinedMetricType": "SageMakerVariantProvisionedConcurrencyUtilization" } } }
Menerapkan kebijakan penskalaan pelacakan target ()AWS Management Console
Untuk menerapkan kebijakan penskalaan pelacakan target dengan: AWS Management Console
-
Masuk ke SageMakerkonsol Amazon
. -
Di panel navigasi, pilih Inferensi.
-
Pilih Endpoint untuk melihat daftar semua titik akhir Anda.
-
Pilih titik akhir yang ingin Anda terapkan kebijakan penskalaan. Halaman dengan pengaturan titik akhir akan muncul, dengan model (varian produksi) yang tercantum di bawah bagian Pengaturan runtime endpoint.
-
Pilih varian produksi yang ingin Anda terapkan kebijakan penskalaan, dan pilih Konfigurasi penskalaan otomatis. Kotak dialog penskalaan otomatis varian Konfigurasi muncul.
-
Masukkan nilai Konkurensi Terketentuan minimum dan maksimum di bidang konkurensi minimum yang disediakan dan konkurensi yang disediakan maksimum, masing-masing, di bagian penskalaan otomatis Variant. Minimum Provisioned Concurrency harus kurang dari atau sama dengan maksimum Provisioned Concurrency.
-
Masukkan nilai target di bidang Nilai target untuk metrik target,
SageMakerVariantProvisionedConcurrencyUtilization
. -
(Opsional) Masukkan skala dalam pendinginan dan skala nilai pendinginan (dalam detik) di Skala dalam pendinginan dan Skalakan bidang pendinginan masing-masing.
-
(Opsional) Pilih Nonaktifkan skala jika Anda tidak ingin penskalaan otomatis menghapus instance saat lalu lintas menurun.
-
Pilih Simpan.
Penskalaan terjadwal
Jika lalu lintas ke titik akhir tanpa server Anda dengan Provisioned Concurrency mengikuti pola rutin, Anda mungkin ingin menjadwalkan tindakan penskalaan pada waktu tertentu, untuk menskalakan atau memperkecil Provisioned Concurrency. Anda dapat menggunakan Application Auto Scaling AWS CLI atau Application Auto Scaling untuk menjadwalkan tindakan penskalaan.
Penskalaan terjadwal ()AWS CLI
Untuk menerapkan kebijakan penskalaan pada model Anda, gunakan perintah put-scheduled-action
AWS CLI; dengan parameter berikut:
-
--schedule-action-name
— Nama tindakan penskalaan. -
--schedule
— Ekspresi cron yang menentukan waktu mulai dan akhir dari tindakan penskalaan dengan jadwal berulang. -
--resource-id
— Pengidentifikasi sumber daya untuk varian. Untuk parameter ini, tipe sumber daya adalahendpoint
dan pengidentifikasi unik adalah nama varian. Sebagai contoh,endpoint/MyEndpoint/variant/MyVariant
. -
--service-namespace
– Atur nilai ini kesagemaker
. -
--scalable-dimension
– Atur nilai ini kesagemaker:variant:DesiredProvisionedConcurrency
. -
--scalable-target-action
— Target tindakan penskalaan.
Contoh berikut menunjukkan cara menambahkan tindakan penskalaan bernama MyScalingAction
ke model bernama MyVariant
pada jadwal berulang. Pada jadwal yang ditentukan (setiap hari pukul 12:15 PMUTC), jika Konkurensi yang Diberikan saat ini di bawah nilai yang ditentukan untuk. MinCapacity
Application Auto Scaling menskalakan Provisioned Concurrency ke nilai yang ditentukan oleh. MinCapacity
aws application-autoscaling put-scheduled-action \ --scheduled-action-name 'MyScalingAction' \ --schedule 'cron(15 12 * * ? *)' \ --service-namespace sagemaker \ --resource-id endpoint/MyEndpoint/variant/MyVariant \ --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \ --scalable-target-action 'MinCapacity=10'
Penskalaan terjadwal (Application Auto API Scaling)
Untuk menerapkan kebijakan penskalaan pada model Anda, gunakan tindakan PutScheduledAction
Application Auto API Scaling dengan parameter berikut:
-
ScheduleActionName
— Nama tindakan penskalaan. -
Schedule
— Ekspresi cron yang menentukan waktu mulai dan akhir dari tindakan penskalaan dengan jadwal berulang. -
ResourceId
— Pengidentifikasi sumber daya untuk varian. Untuk parameter ini, tipe sumber daya adalahendpoint
dan pengidentifikasi unik adalah nama varian. Sebagai contoh,endpoint/MyEndpoint/variant/MyVariant
. -
ServiceNamespace
– Atur nilai ini kesagemaker
. -
ScalableDimension
– Atur nilai ini kesagemaker:variant:DesiredProvisionedConcurrency
. -
ScalableTargetAction
— Target tindakan penskalaan.
Contoh berikut menunjukkan cara menambahkan tindakan penskalaan bernama MyScalingAction
ke model bernama MyVariant
pada jadwal berulang. Pada jadwal yang ditentukan (setiap hari pukul 12:15 PMUTC), jika Konkurensi yang Diberikan saat ini di bawah nilai yang ditentukan untuk. MinCapacity
Application Auto Scaling menskalakan Provisioned Concurrency ke nilai yang ditentukan oleh. MinCapacity
POST / HTTP/1.1 Host: autoscaling.us-east-2.amazonaws.com Accept-Encoding: identity X-Amz-Target: AnyScaleFrontendService.PutScheduledAction X-Amz-Date: 20160506T182145Z User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8 Content-Type: application/x-amz-json-1.1 Authorization: AUTHPARAMS { "ScheduledActionName": "MyScalingAction", "Schedule": "cron(15 12 * * ? *)", "ServiceNamespace": "sagemaker", "ResourceId": "endpoint/MyEndpoint/variant/MyVariant", "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency", "ScalableTargetAction": "MinCapacity=10" } } }