Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon SageMaker dan Application Auto Scaling
Anda dapat menskalakan varian SageMaker titik akhir, konkurensi yang disediakan untuk titik akhir tanpa server, dan komponen inferensi menggunakan kebijakan penskalaan pelacakan target, kebijakan penskalaan langkah, dan penskalaan terjadwal.
Gunakan informasi berikut untuk membantu Anda berintegrasi SageMaker dengan Application Auto Scaling.
Peran terkait layanan dibuat untuk SageMaker
Peran terkait layanan berikut dibuat secara otomatis di dalam Anda Akun AWS saat mendaftarkan SageMaker sumber daya sebagai target yang dapat diskalakan dengan Application Auto Scaling. Peran ini memungkinkan Application Auto Scaling untuk melakukan operasi yang didukung dalam akun Anda. Untuk informasi selengkapnya, lihat Peran yang ditautkan dengan layanan untuk Application Auto Scaling.
-
AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint
Prinsipal layanan yang digunakan oleh peran terkait layanan
Peran terkait layanan di bagian sebelumnya hanya dapat diasumsikan oleh kepala layanan yang diotorisasi oleh hubungan kepercayaan yang ditentukan untuk peran tersebut. Peran terkait layanan yang digunakan oleh Application Auto Scaling memberikan akses ke prinsipal layanan berikut:
-
sagemaker.application-autoscaling.amazonaws.com
Mendaftarkan varian SageMaker endpoint sebagai target yang dapat diskalakan dengan Application Auto Scaling
Application Auto Scaling memerlukan target yang dapat diskalakan sebelum Anda dapat membuat kebijakan penskalaan atau tindakan terjadwal untuk SageMaker model (varian). Target yang dapat diskalakan adalah sumber daya yang dapat diskalakan dan diskalakan oleh Application Auto Scaling. Target yang dapat diskalakan diidentifikasi secara unik dengan kombinasi ID sumber daya, dimensi yang dapat diskalakan, dan namespace.
Jika Anda mengonfigurasi penskalaan otomatis menggunakan SageMaker konsol, maka SageMaker secara otomatis mendaftarkan target yang dapat diskalakan untuk Anda.
Jika Anda ingin mengonfigurasi penskalaan otomatis menggunakan AWS CLI atau salah AWS satu SDK, Anda dapat menggunakan opsi berikut:
-
AWS CLI:
Panggil register-scalable-targetperintah untuk varian produk. Contoh berikut mencatat jumlah instans yang diinginkan untuk varian produk yang disebut
my-variant
, berjalan padamy-endpoint
titik akhir, dengan kapasitas minimum satu instance dan kapasitas maksimum delapan instance.aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredInstanceCount \ --resource-id endpoint/
my-endpoint
/variant/my-variant
\ --min-capacity1
\ --max-capacity8
Jika berhasil, perintah ini mengembalikan ARN dari target yang dapat diskalakan.
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS SDK:
Panggil RegisterScalableTargetoperasi dan berikan
ResourceId
,ScalableDimension
,ServiceNamespace
,MinCapacity
, danMaxCapacity
sebagai parameter.
Mendaftarkan konkurensi titik akhir tanpa server yang disediakan sebagai target yang dapat diskalakan dengan Application Auto Scaling
Application Auto Scaling juga memerlukan target yang dapat diskalakan sebelum Anda dapat membuat kebijakan penskalaan atau tindakan terjadwal untuk konkurensi titik akhir tanpa server yang disediakan.
Jika Anda mengonfigurasi penskalaan otomatis menggunakan SageMaker konsol, maka SageMaker secara otomatis mendaftarkan target yang dapat diskalakan untuk Anda.
Jika tidak, gunakan salah satu metode berikut untuk mendaftarkan target yang dapat diskalakan:
-
AWS CLI:
Panggil register-scalable-targetperintah untuk varian produk. Contoh berikut mendaftarkan konkurensi yang disediakan untuk varian produk yang disebut
my-variant
, berjalan padamy-endpoint
titik akhir, dengan kapasitas minimum satu dan kapasitas maksimum sepuluh.aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \ --resource-id endpoint/
my-endpoint
/variant/my-variant
\ --min-capacity1
\ --max-capacity10
Jika berhasil, perintah ini mengembalikan ARN dari target yang dapat diskalakan.
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS SDK:
Panggil RegisterScalableTargetoperasi dan berikan
ResourceId
,ScalableDimension
,ServiceNamespace
,MinCapacity
, danMaxCapacity
sebagai parameter.
Mendaftarkan komponen inferensi sebagai target yang dapat diskalakan dengan Application Auto Scaling
Application Auto Scaling juga memerlukan target yang dapat diskalakan sebelum Anda dapat membuat kebijakan penskalaan atau tindakan terjadwal untuk komponen inferensi.
-
AWS CLI:
Panggil register-scalable-targetperintah untuk komponen inferensi. Contoh berikut mencatat jumlah salinan yang diinginkan untuk komponen inferensi yang disebut
my-inference-component
, dengan kapasitas minimum nol salinan dan kapasitas maksimum tiga salinan.aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:inference-component:DesiredCopyCount \ --resource-id inference-component/
my-inference-component
\ --min-capacity0
\ --max-capacity3
Jika berhasil, perintah ini mengembalikan ARN dari target yang dapat diskalakan.
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS SDK:
Panggil RegisterScalableTargetoperasi dan berikan
ResourceId
,ScalableDimension
,ServiceNamespace
,MinCapacity
, danMaxCapacity
sebagai parameter.
Sumber daya terkait
Jika Anda baru memulai Application Auto Scaling, Anda dapat menemukan informasi berguna tambahan tentang penskalaan SageMaker sumber daya Anda di Panduan Pengembang Amazon SageMaker :
catatan
Pada tahun 2023, SageMaker memperkenalkan kemampuan inferensi baru yang dibangun di atas titik akhir inferensi waktu nyata. Anda membuat SageMaker titik akhir dengan konfigurasi titik akhir yang mendefinisikan jenis instans dan jumlah instans awal untuk titik akhir. Kemudian, buat komponen inferensi, yang merupakan objek SageMaker hosting yang dapat Anda gunakan untuk menyebarkan model ke titik akhir. Untuk informasi tentang penskalaan komponen inferensi, lihat Amazon SageMaker menambahkan kemampuan inferensi baru untuk membantu mengurangi biaya penerapan model dasar dan latensi