Tentukan karakteristik kinerja Hitung beban target

Memuat pengujian konfigurasi penskalaan otomatis Anda

Lakukan tes beban untuk memilih konfigurasi penskalaan yang berfungsi seperti yang Anda inginkan.

Pedoman pengujian beban berikut mengasumsikan Anda menggunakan kebijakan penskalaan yang menggunakan metrik target yang telah ditentukan sebelumnya. SageMakerVariantInvocationsPerInstance

Tentukan karakteristik kinerja

Lakukan pengujian beban untuk menemukan puncak InvocationsPerInstance yang dapat ditangani oleh varian produksi model Anda, dan latensi permintaan, saat konkurensi meningkat.

Nilai ini bergantung pada jenis instans yang dipilih, muatan yang biasanya dikirim oleh klien model Anda, dan kinerja dependensi eksternal apa pun yang dimiliki model Anda.

Untuk menemukan peak requests-per-second (RPS) varian produksi model Anda dapat menangani dan latensi permintaan

Siapkan titik akhir dengan model Anda menggunakan satu instance. Untuk informasi tentang cara menyiapkan titik akhir, lihatMenyebarkan Model ke Layanan Hosting SageMaker AI.
Gunakan alat pengujian beban untuk menghasilkan peningkatan jumlah permintaan paralel, dan pantau latensi RPS dan model di out put dari alat pengujian beban.

catatan
Anda juga dapat memantau requests-per-minute sebagai gantinyaRPS. Dalam hal ini jangan kalikan dengan 60 dalam persamaan untuk menghitung yang SageMakerVariantInvocationsPerInstance ditunjukkan di bawah ini.

Ketika latensi model meningkat atau proporsi transaksi yang berhasil menurun, ini adalah puncak RPS yang dapat ditangani model Anda.

Hitung beban target

Setelah Anda menemukan karakteristik kinerja varian, Anda dapat menentukan maksimum yang harus RPS kami izinkan untuk dikirim ke sebuah instance. Ambang batas yang digunakan untuk penskalaan harus kurang dari nilai maksimum ini. Gunakan persamaan berikut dalam kombinasi dengan pengujian beban untuk menentukan nilai yang benar untuk metrik SageMakerVariantInvocationsPerInstance target dalam konfigurasi penskalaan Anda.


SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

Di MAX_RPS mana maksimum RPS yang Anda tentukan sebelumnya, dan SAFETY_FACTOR merupakan faktor keamanan yang Anda pilih untuk memastikan bahwa klien Anda tidak melebihi maksimumRPS. Kalikan dengan 60 untuk mengonversi dari RPS invocations-per-minute ke agar sesuai dengan CloudWatch metrik per menit yang digunakan SageMaker AI untuk menerapkan penskalaan otomatis (Anda tidak perlu melakukan ini jika Anda mengukur requests-per-minute sebagai gantinya). requests-per-second

catatan

SageMaker AI merekomendasikan agar Anda mulai menguji dengan SAFETY_FACTOR 0,5. Uji konfigurasi penskalaan Anda untuk memastikannya beroperasi seperti yang Anda harapkan dengan model Anda untuk meningkatkan dan mengurangi lalu lintas pelanggan di titik akhir Anda.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menskalakan titik akhir ke nol instance

Gunakan AWS CloudFormation untuk membuat kebijakan penskalaan