Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Setel SageMaker perilaku caching model titik akhir multi-model
Secara default, multi-model endpoint cache sering digunakan model dalam memori (CPUatauGPU, tergantung pada apakah Anda memiliki CPU atau GPU mendukung instance) dan pada disk untuk memberikan inferensi latensi rendah. Model cache dibongkar dan/atau dihapus dari disk hanya ketika wadah kehabisan memori atau ruang disk untuk mengakomodasi model yang baru ditargetkan.
Kami merekomendasikan pengaturan nilai ModelCacheSetting
parameter Disabled
untuk kasus penggunaan yang tidak mendapat manfaat dari caching model. Misalnya, ketika sejumlah besar model perlu dilayani dari titik akhir tetapi setiap model dipanggil hanya sekali (atau sangat jarang). Untuk kasus penggunaan seperti itu, mengatur nilai ModelCacheSetting
parameter untuk Disabled
memungkinkan transaksi per detik (TPS) yang lebih tinggi untuk invoke_endpoint
permintaan dibandingkan dengan mode caching default. Lebih tinggi TPS dalam kasus penggunaan ini adalah karena SageMaker melakukan hal berikut setelah invoke_endpoint
permintaan:
-
Secara asinkron menurunkan model dari memori dan menghapusnya dari disk segera setelah dipanggil.
-
Memberikan konkurensi yang lebih tinggi untuk mengunduh dan memuat model dalam wadah inferensi. Untuk keduanya CPU dan titik akhir yang GPU didukung, konkurensi adalah faktor dari vCPUs jumlah instance container.
Untuk pedoman tentang memilih tipe instans SageMaker ML untuk titik akhir multi-model, lihat. Rekomendasi instans untuk penerapan titik akhir multi-model