Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Titik akhir multi-model
Titik akhir multi-model memberikan solusi yang dapat diskalakan dan hemat biaya untuk menerapkan sejumlah besar model. Mereka menggunakan armada sumber daya yang sama dan wadah penyajian bersama untuk menampung semua model Anda. Ini mengurangi biaya hosting dengan meningkatkan pemanfaatan titik akhir dibandingkan dengan menggunakan titik akhir model tunggal. Ini juga mengurangi overhead penerapan karena Amazon SageMaker mengelola pemuatan model dalam memori dan menskalakannya berdasarkan pola lalu lintas ke titik akhir Anda.
Diagram berikut menunjukkan bagaimana titik akhir multi-model bekerja dibandingkan dengan titik akhir model tunggal.
Titik akhir multi-model ideal untuk menghosting sejumlah besar model yang menggunakan kerangka kerja ML yang sama pada wadah penyajian bersama. Jika Anda memiliki campuran model yang sering dan jarang diakses, titik akhir multi-model dapat secara efisien melayani lalu lintas ini dengan sumber daya yang lebih sedikit dan penghematan biaya yang lebih tinggi. Aplikasi Anda harus toleran terhadap hukuman latensi terkait start dingin sesekali yang terjadi saat memanggil model yang jarang digunakan.
Titik akhir multi-model mendukung hosting keduanya CPU dan model yang GPU didukung. Dengan menggunakan model GPU yang didukung, Anda dapat menurunkan biaya penerapan model melalui peningkatan penggunaan titik akhir dan instans komputasi yang dipercepat yang mendasarinya.
Titik akhir multi-model juga memungkinkan pembagian waktu sumber daya memori di seluruh model Anda. Ini berfungsi paling baik ketika modelnya cukup mirip dalam ukuran dan latensi pemanggilan. Ketika ini terjadi, titik akhir multi-model dapat secara efektif menggunakan instance di semua model. Jika Anda memiliki model yang memiliki persyaratan transaksi per detik (TPS) atau latensi yang jauh lebih tinggi, kami sarankan untuk menghosting mereka di titik akhir khusus.
Anda dapat menggunakan titik akhir multi-model dengan fitur berikut:
-
AWS PrivateLinkdan VPCs
-
Pipa inferensi serial (tetapi hanya satu wadah berkemampuan multi-model yang dapat dimasukkan dalam pipa inferensi)
-
Pengujian A/B
Anda dapat menggunakan AWS SDK for Python (Boto) atau SageMaker konsol untuk membuat titik akhir multi-model. Untuk titik akhir multi-model yang CPU didukung, Anda dapat membuat titik akhir dengan container yang dibuat khusus dengan mengintegrasikan pustaka Server Multi Model.
Topik
- Cara kerja titik akhir multi-model
- Contoh notebook untuk titik akhir multi-model
- Algoritma, kerangka kerja, dan instance yang didukung untuk titik akhir multi-model
- Rekomendasi instans untuk penerapan titik akhir multi-model
- Membuat Endpoint Multi-Model
- Memanggil Titik Akhir Multi-Model
- Tambah atau Hapus Model
- Bangun Container Anda Sendiri untuk Titik Akhir SageMaker Multi-Model
- Keamanan Titik Akhir Multi-Model
- CloudWatch Metrik untuk Penerapan Titik Akhir Multi-Model
- Setel SageMaker perilaku caching model titik akhir multi-model
- Menetapkan Kebijakan Auto Scaling untuk Penerapan Titik Akhir Multi-Model
Cara kerja titik akhir multi-model
SageMaker mengelola siklus hidup model yang dihosting pada titik akhir multi-model dalam memori wadah. Alih-alih mengunduh semua model dari bucket Amazon S3 ke penampung saat Anda membuat titik akhir, memuat dan menyimpannya SageMaker secara dinamis saat Anda memanggilnya. Ketika SageMaker menerima permintaan pemanggilan untuk model tertentu, ia melakukan hal berikut:
-
Rutekan permintaan ke instance di belakang titik akhir.
-
Mengunduh model dari bucket S3 ke volume penyimpanan instans itu.
-
Memuat model ke memori container (CPUatauGPU, tergantung pada apakah Anda memiliki CPU atau GPU mendukung instance) pada instance komputasi yang dipercepat tersebut. Jika model sudah dimuat dalam memori penampung, pemanggilan lebih cepat karena SageMaker tidak perlu mengunduh dan memuatnya.
SageMaker terus merutekan permintaan untuk model ke instance di mana model sudah dimuat. Namun, jika model menerima banyak permintaan pemanggilan, dan ada contoh tambahan untuk titik akhir multi-model, SageMaker merutekan beberapa permintaan ke instance lain untuk mengakomodasi lalu lintas. Jika model belum dimuat pada instance kedua, model diunduh ke volume penyimpanan instance itu dan dimuat ke dalam memori penampung.
Ketika pemanfaatan memori instance tinggi dan SageMaker perlu memuat model lain ke dalam memori, itu membongkar model yang tidak digunakan dari wadah instance itu untuk memastikan bahwa ada cukup memori untuk memuat model. Model yang dibongkar tetap pada volume penyimpanan instans dan dapat dimuat ke dalam memori kontainer nanti tanpa diunduh lagi dari bucket S3. Jika volume penyimpanan instans mencapai kapasitasnya, SageMaker hapus semua model yang tidak terpakai dari volume penyimpanan.
Untuk menghapus model, hentikan pengiriman permintaan dan hapus dari bucket S3. SageMaker menyediakan kemampuan titik akhir multi-model dalam wadah penyajian. Menambahkan model ke, dan menghapusnya dari, titik akhir multi-model tidak memerlukan pembaruan titik akhir itu sendiri. Untuk menambahkan model, Anda mengunggahnya ke bucket S3 dan memanggilnya. Anda tidak perlu perubahan kode untuk menggunakannya.
catatan
Saat Anda memperbarui titik akhir multi-model, permintaan pemanggilan awal pada titik akhir mungkin mengalami latensi yang lebih tinggi karena Smart Routing di titik akhir multi-model beradaptasi dengan pola lalu lintas Anda. Namun, setelah mempelajari pola lalu lintas Anda, Anda dapat mengalami latensi rendah untuk model yang paling sering digunakan. Model yang jarang digunakan mungkin menimbulkan beberapa latensi start dingin karena model dimuat secara dinamis ke sebuah instance.
Contoh notebook untuk titik akhir multi-model
Untuk mempelajari lebih lanjut tentang cara menggunakan titik akhir multi-model, Anda dapat mencoba contoh buku catatan berikut:
-
Contoh untuk titik akhir multi-model menggunakan instance yang CPU didukung:
-
Multi-Model Endpoint XGBoost Sample Nootebook — Notebook
ini menunjukkan cara menerapkan beberapa model ke titik akhir. XGBoost -
Notebook BYOC Contoh Titik Akhir Multi-Model
— Notebook ini menunjukkan cara menyiapkan dan menerapkan wadah pelanggan yang mendukung titik akhir multi-model. SageMaker
-
-
Contoh untuk titik akhir multi-model menggunakan instance yang GPU didukung:
-
Jalankan model pembelajaran mendalam mulitple dengan GPUs Amazon SageMaker Multi-model endpoint (MME)
— Notebook ini menunjukkan cara menggunakan wadah Inferensi NVIDIA Triton untuk menerapkan ResNet model -50 ke titik akhir multi-model.
-
Untuk petunjuk tentang cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh sebelumnya, lihat. SageMaker Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab SageMaker Contoh untuk melihat daftar semua SageMaker sampel. Notebook titik akhir multi-model terletak di bagian ini. ADVANCEDFUNCTIONALITY Untuk membuka buku catatan, pilih tab Use dan pilih Create copy.
Untuk informasi selengkapnya tentang kasus penggunaan untuk titik akhir multi-model, lihat blog dan sumber daya berikut:
-
Video: SageMaker ML untuk SaaS
-
Blog: Cara menskalakan inferensi pembelajaran mesin untuk kasus penggunaan SaaS multi-penyewa
-
Studi kasus: Sistem Veeva