Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Ikhtisar kebijakan penskalaan otomatis
Untuk menggunakan penskalaan otomatis, Anda menentukan kebijakan penskalaan yang menambahkan dan menghapus jumlah instance untuk varian produksi Anda sebagai respons terhadap beban kerja aktual.
Untuk menskalakan secara otomatis saat terjadi perubahan beban kerja, Anda memiliki dua opsi: kebijakan pelacakan target dan penskalaan langkah.
Sebaiknya gunakan kebijakan penskalaan pelacakan target. Dengan pelacakan target, Anda memilih CloudWatch metrik Amazon dan nilai target. Penskalaan otomatis membuat dan mengelola CloudWatch alarm untuk kebijakan penskalaan dan menghitung penyesuaian penskalaan berdasarkan metrik dan nilai target. Kebijakan menambahkan dan menghapus jumlah instance yang diperlukan untuk menjaga metrik pada, atau mendekati, nilai target yang ditentukan. Misalnya, kebijakan penskalaan yang menggunakan InvocationsPerInstance
metrik yang telah ditentukan dengan nilai target 70 dapat dipertahankanInvocationsPerInstance
, atau mendekati 70. Untuk informasi selengkapnya, lihat Kebijakan penskalaan pelacakan target di Panduan Pengguna Application Auto Scaling.
Anda dapat menggunakan penskalaan langkah saat memerlukan konfigurasi lanjutan, seperti menentukan berapa banyak instance yang akan diterapkan dalam kondisi apa. Jika tidak, menggunakan penskalaan pelacakan target lebih disukai karena akan sepenuhnya otomatis. Perhatikan bahwa penskalaan langkah hanya dapat dikelola dari Application Auto Scaling AWS CLI atau Application Auto API Scaling. Untuk gambaran umum tentang kebijakan penskalaan langkah dan cara kerjanya, lihat Kebijakan penskalaan langkah di Panduan Pengguna Application Auto Scaling
Untuk membuat kebijakan penskalaan pelacakan target, Anda menentukan hal berikut:
-
Metrik — CloudWatch Metrik untuk dilacak, seperti jumlah rata-rata pemanggilan per instance.
-
Nilai target — Nilai target untuk metrik, seperti 70 pemanggilan per instance per menit.
Anda dapat membuat kebijakan penskalaan pelacakan target dengan metrik yang telah ditentukan sebelumnya atau metrik khusus. Metrik yang telah ditentukan ditentukan dalam enumerasi sehingga Anda dapat menentukannya berdasarkan nama dalam kode atau menggunakannya di konsol. SageMaker Atau, Anda dapat menggunakan Application Auto Scaling AWS CLI atau Application Auto Scaling API untuk menerapkan kebijakan penskalaan pelacakan target berdasarkan metrik yang telah ditentukan atau kustom.
Perhatikan bahwa aktivitas penskalaan dilakukan dengan periode cooldown di antara mereka untuk mencegah fluktuasi kapasitas yang cepat. Anda dapat secara opsional mengonfigurasi periode cooldown untuk kebijakan penskalaan Anda.
Untuk informasi selengkapnya tentang konsep kunci penskalaan otomatis, lihat bagian berikut.
Penskalaan berbasis jadwal
Anda juga dapat membuat tindakan terjadwal untuk melakukan aktivitas penskalaan pada waktu tertentu. Anda dapat membuat tindakan terjadwal yang menskalakan satu kali saja atau menskalakan berdasarkan jadwal berulang. Setelah tindakan terjadwal berjalan, kebijakan penskalaan Anda dapat terus membuat keputusan tentang apakah akan menskalakan secara dinamis saat terjadi perubahan beban kerja. Penskalaan terjadwal hanya dapat dikelola dari Application Auto Scaling AWS CLI atau Application Auto API Scaling. Untuk informasi lebih lanjut, lihat Penskalaan terjadwal dalam Panduan Pengguna Application Auto Scaling.
Batas penskalaan minimum dan maksimum
Saat mengonfigurasi penskalaan otomatis, Anda harus menentukan batas penskalaan sebelum membuat kebijakan penskalaan. Anda menetapkan batas secara terpisah untuk nilai minimum dan maksimum.
Nilai minimum harus minimal 1, dan sama dengan atau kurang dari nilai yang ditentukan untuk nilai maksimum.
Nilai maksimum harus sama dengan atau lebih besar dari nilai yang ditentukan untuk nilai minimum. SageMaker penskalaan otomatis tidak memberlakukan batasan untuk nilai ini.
Untuk menentukan batas penskalaan yang Anda perlukan untuk lalu lintas biasa, uji konfigurasi penskalaan otomatis Anda dengan laju lalu lintas yang diharapkan ke model Anda.
Jika lalu lintas varian menjadi nol, SageMaker secara otomatis menskalakan ke jumlah minimum instance yang ditentukan. Dalam hal ini, SageMaker memancarkan metrik dengan nilai nol.
Ada tiga opsi untuk menentukan kapasitas minimum dan maksimum:
-
Gunakan konsol untuk memperbarui jumlah instans Minimum dan pengaturan hitungan instans maksimum.
-
Gunakan AWS CLI dan sertakan
--max-capacity
opsi--min-capacity
dan saat menjalankan register-scalable-targetperintah. -
Panggil RegisterScalableTargetAPIdan tentukan
MaxCapacity
parameterMinCapacity
dan.
Tip
Anda dapat menskalakan secara manual dengan meningkatkan nilai minimum, atau menskalakan secara manual dengan mengurangi nilai maksimum.
Periode pendinginan
Periode cooldown digunakan untuk melindungi dari penskalaan berlebih saat model Anda melakukan penskalaan (mengurangi kapasitas) atau penskalaan (meningkatkan kapasitas). Ini dilakukan dengan memperlambat aktivitas penskalaan berikutnya sampai periode berakhir. Secara khusus, ini memblokir penghapusan instance untuk permintaan scale-in, dan membatasi pembuatan instance untuk permintaan scale-out. Untuk informasi selengkapnya, lihat Menentukan periode cooldown di Panduan Pengguna Application Auto Scaling.
Anda mengonfigurasi periode cooldown dalam kebijakan penskalaan Anda.
Jika Anda tidak menentukan periode cooldown scale-in atau scale-out, kebijakan penskalaan Anda menggunakan default, yaitu masing-masing 300 detik.
Jika instance ditambahkan atau dihapus terlalu cepat saat Anda menguji konfigurasi penskalaan, pertimbangkan untuk meningkatkan nilai ini. Anda mungkin melihat perilaku ini jika lalu lintas ke model Anda memiliki banyak lonjakan, atau jika Anda memiliki beberapa kebijakan penskalaan yang ditentukan untuk varian.
Jika instance tidak ditambahkan cukup cepat untuk mengatasi peningkatan lalu lintas, pertimbangkan untuk mengurangi nilai ini.
Sumber daya terkait
Untuk informasi selengkapnya tentang mengonfigurasi penskalaan otomatis, lihat sumber daya berikut:
-
Bagian application-autoscaling dari Referensi Perintah AWS CLI
catatan
SageMaker baru-baru ini memperkenalkan kemampuan inferensi baru yang dibangun di atas titik akhir inferensi waktu nyata. Anda membuat SageMaker titik akhir dengan konfigurasi titik akhir yang mendefinisikan jenis instans dan jumlah instans awal untuk titik akhir. Kemudian, buat komponen inferensi, yang merupakan objek SageMaker hosting yang dapat Anda gunakan untuk menyebarkan model ke titik akhir. Untuk informasi tentang penskalaan komponen inferensi, lihat SageMaker menambahkan kemampuan inferensi baru untuk membantu mengurangi biaya penerapan model pondasi dan latensi