Setel SageMaker perilaku caching model titik akhir multi-model - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Setel SageMaker perilaku caching model titik akhir multi-model

Secara default, multi-model endpoint cache sering digunakan model dalam memori (CPUatauGPU, tergantung pada apakah Anda memiliki CPU atau GPU mendukung instance) dan pada disk untuk memberikan inferensi latensi rendah. Model cache dibongkar dan/atau dihapus dari disk hanya ketika wadah kehabisan memori atau ruang disk untuk mengakomodasi model yang baru ditargetkan.

Anda dapat mengubah perilaku caching dari titik akhir multi-model dan secara eksplisit mengaktifkan atau menonaktifkan caching model dengan menyetel parameter saat Anda memanggil create_model. ModelCacheSetting

Kami merekomendasikan pengaturan nilai ModelCacheSetting parameter Disabled untuk kasus penggunaan yang tidak mendapat manfaat dari caching model. Misalnya, ketika sejumlah besar model perlu dilayani dari titik akhir tetapi setiap model dipanggil hanya sekali (atau sangat jarang). Untuk kasus penggunaan seperti itu, mengatur nilai ModelCacheSetting parameter untuk Disabled memungkinkan transaksi per detik (TPS) yang lebih tinggi untuk invoke_endpoint permintaan dibandingkan dengan mode caching default. Lebih tinggi TPS dalam kasus penggunaan ini adalah karena SageMaker melakukan hal berikut setelah invoke_endpoint permintaan:

  • Secara asinkron menurunkan model dari memori dan menghapusnya dari disk segera setelah dipanggil.

  • Memberikan konkurensi yang lebih tinggi untuk mengunduh dan memuat model dalam wadah inferensi. Untuk keduanya CPU dan titik akhir yang GPU didukung, konkurensi adalah faktor dari vCPUs jumlah instance container.

Untuk pedoman tentang memilih tipe instans SageMaker ML untuk titik akhir multi-model, lihat. Rekomendasi instans untuk penerapan titik akhir multi-model