Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memuat pengujian konfigurasi penskalaan otomatis Anda
Lakukan tes beban untuk memilih konfigurasi penskalaan yang berfungsi seperti yang Anda inginkan.
Pedoman pengujian beban berikut mengasumsikan Anda menggunakan kebijakan penskalaan yang menggunakan metrik target yang telah ditentukan sebelumnya. SageMakerVariantInvocationsPerInstance
Tentukan karakteristik kinerja
Lakukan pengujian beban untuk menemukan puncak InvocationsPerInstance
yang dapat ditangani oleh varian produksi model Anda, dan latensi permintaan, saat konkurensi meningkat.
Nilai ini bergantung pada jenis instans yang dipilih, muatan yang biasanya dikirim oleh klien model Anda, dan kinerja dependensi eksternal apa pun yang dimiliki model Anda.
Untuk menemukan peak requests-per-second (RPS) varian produksi model Anda dapat menangani dan latensi permintaan
-
Siapkan titik akhir dengan model Anda menggunakan satu instance. Untuk informasi tentang cara menyiapkan titik akhir, lihatMenyebarkan Model ke Layanan Hosting SageMaker AI.
-
Gunakan alat pengujian beban untuk menghasilkan peningkatan jumlah permintaan paralel, dan pantau latensi RPS dan model di out put dari alat pengujian beban.
catatan
Anda juga dapat memantau requests-per-minute sebagai gantinyaRPS. Dalam hal ini jangan kalikan dengan 60 dalam persamaan untuk menghitung yang
SageMakerVariantInvocationsPerInstance
ditunjukkan di bawah ini.Ketika latensi model meningkat atau proporsi transaksi yang berhasil menurun, ini adalah puncak RPS yang dapat ditangani model Anda.
Hitung beban target
Setelah Anda menemukan karakteristik kinerja varian, Anda dapat menentukan maksimum yang harus RPS kami izinkan untuk dikirim ke sebuah instance. Ambang batas yang digunakan untuk penskalaan harus kurang dari nilai maksimum ini. Gunakan persamaan berikut dalam kombinasi dengan pengujian beban untuk menentukan nilai yang benar untuk metrik SageMakerVariantInvocationsPerInstance
target dalam konfigurasi penskalaan Anda.
SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60
Di MAX_RPS
mana maksimum RPS yang Anda tentukan sebelumnya, dan SAFETY_FACTOR
merupakan faktor keamanan yang Anda pilih untuk memastikan bahwa klien Anda tidak melebihi maksimumRPS. Kalikan dengan 60 untuk mengonversi dari RPS invocations-per-minute ke agar sesuai dengan CloudWatch metrik per menit yang digunakan SageMaker AI untuk menerapkan penskalaan otomatis (Anda tidak perlu melakukan ini jika Anda mengukur requests-per-minute sebagai gantinya). requests-per-second
catatan
SageMaker AI merekomendasikan agar Anda mulai menguji dengan SAFETY_FACTOR
0,5. Uji konfigurasi penskalaan Anda untuk memastikannya beroperasi seperti yang Anda harapkan dengan model Anda untuk meningkatkan dan mengurangi lalu lintas pelanggan di titik akhir Anda.