Titik akhir multi-model - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Titik akhir multi-model

Titik akhir multi-model memberikan solusi yang dapat diskalakan dan hemat biaya untuk menerapkan sejumlah besar model. Mereka menggunakan armada sumber daya yang sama dan wadah penyajian bersama untuk menampung semua model Anda. Ini mengurangi biaya hosting dengan meningkatkan pemanfaatan titik akhir dibandingkan dengan menggunakan titik akhir model tunggal. Ini juga mengurangi overhead penerapan karena Amazon SageMaker AI mengelola pemuatan model dalam memori dan menskalakannya berdasarkan pola lalu lintas ke titik akhir Anda.

Diagram berikut menunjukkan bagaimana titik akhir multi-model bekerja dibandingkan dengan titik akhir model tunggal.

Diagram yang menunjukkan bagaimana multi-model versus bagaimana model titik akhir model tunggal menghosting model.

Titik akhir multi-model ideal untuk menghosting sejumlah besar model yang menggunakan kerangka kerja ML yang sama pada wadah penyajian bersama. Jika Anda memiliki campuran model yang sering dan jarang diakses, titik akhir multi-model dapat secara efisien melayani lalu lintas ini dengan sumber daya yang lebih sedikit dan penghematan biaya yang lebih tinggi. Aplikasi Anda harus toleran terhadap hukuman latensi terkait start dingin sesekali yang terjadi saat memanggil model yang jarang digunakan.

Titik akhir multi-model mendukung hosting keduanya CPU dan model yang GPU didukung. Dengan menggunakan model GPU yang didukung, Anda dapat menurunkan biaya penerapan model melalui peningkatan penggunaan titik akhir dan instans komputasi yang dipercepat yang mendasarinya.

Titik akhir multi-model juga memungkinkan pembagian waktu sumber daya memori di seluruh model Anda. Ini berfungsi paling baik ketika modelnya cukup mirip dalam ukuran dan latensi pemanggilan. Ketika ini terjadi, titik akhir multi-model dapat secara efektif menggunakan instance di semua model. Jika Anda memiliki model yang memiliki persyaratan transaksi per detik (TPS) atau latensi yang jauh lebih tinggi, kami sarankan untuk menghosting mereka di titik akhir khusus.

Anda dapat menggunakan titik akhir multi-model dengan fitur berikut:

Anda dapat menggunakan AWS SDK for Python (Boto) atau konsol SageMaker AI untuk membuat titik akhir multi-model. Untuk titik akhir multi-model yang CPU didukung, Anda dapat membuat titik akhir dengan container yang dibuat khusus dengan mengintegrasikan pustaka Server Multi Model.

Cara kerja titik akhir multi-model

SageMaker AI mengelola siklus hidup model yang dihosting pada titik akhir multi-model dalam memori wadah. Alih-alih mengunduh semua model dari bucket Amazon S3 ke wadah saat Anda membuat titik akhir, SageMaker AI secara dinamis memuat dan menyimpannya di cache saat Anda memanggilnya. Ketika SageMaker AI menerima permintaan pemanggilan untuk model tertentu, AI melakukan hal berikut:

  1. Rutekan permintaan ke instance di belakang titik akhir.

  2. Mengunduh model dari bucket S3 ke volume penyimpanan instans itu.

  3. Memuat model ke memori kontainer (CPUatauGPU, tergantung pada apakah Anda memiliki CPU atau GPU mendukung instance) pada instance komputasi yang dipercepat tersebut. Jika model sudah dimuat dalam memori wadah, pemanggilan lebih cepat karena SageMaker AI tidak perlu mengunduh dan memuatnya.

SageMaker AI terus merutekan permintaan untuk model ke instance di mana model sudah dimuat. Namun, jika model menerima banyak permintaan pemanggilan, dan ada contoh tambahan untuk titik akhir multi-model, SageMaker AI merutekan beberapa permintaan ke instance lain untuk mengakomodasi lalu lintas. Jika model belum dimuat pada instance kedua, model diunduh ke volume penyimpanan instance itu dan dimuat ke dalam memori penampung.

Ketika pemanfaatan memori instans tinggi dan SageMaker AI perlu memuat model lain ke dalam memori, ia membongkar model yang tidak digunakan dari wadah instance itu untuk memastikan bahwa ada cukup memori untuk memuat model. Model yang dibongkar tetap berada pada volume penyimpanan instans dan dapat dimuat ke dalam memori kontainer nanti tanpa diunduh lagi dari bucket S3. Jika volume penyimpanan instans mencapai kapasitasnya, SageMaker AI menghapus model yang tidak digunakan dari volume penyimpanan.

Untuk menghapus model, hentikan pengiriman permintaan dan hapus dari bucket S3. SageMaker AI menyediakan kemampuan endpoint multi-model dalam wadah penyajian. Menambahkan model ke, dan menghapusnya dari, titik akhir multi-model tidak memerlukan pembaruan titik akhir itu sendiri. Untuk menambahkan model, Anda mengunggahnya ke bucket S3 dan memanggilnya. Anda tidak perlu perubahan kode untuk menggunakannya.

catatan

Saat Anda memperbarui titik akhir multi-model, permintaan pemanggilan awal pada titik akhir mungkin mengalami latensi yang lebih tinggi karena Smart Routing di titik akhir multi-model beradaptasi dengan pola lalu lintas Anda. Namun, setelah mempelajari pola lalu lintas Anda, Anda dapat mengalami latensi rendah untuk model yang paling sering digunakan. Model yang jarang digunakan mungkin menimbulkan beberapa latensi start dingin karena model dimuat secara dinamis ke sebuah instance.

Contoh notebook untuk titik akhir multi-model

Untuk mempelajari lebih lanjut tentang cara menggunakan titik akhir multi-model, Anda dapat mencoba contoh buku catatan berikut:

Untuk petunjuk tentang cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh sebelumnya di SageMaker AI, lihat. Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab Contoh SageMaker AI untuk melihat daftar semua sampel SageMaker AI. Notebook titik akhir multi-model terletak di bagian ini. ADVANCEDFUNCTIONALITY Untuk membuka buku catatan, pilih tab Use dan pilih Create copy.

Untuk informasi selengkapnya tentang kasus penggunaan untuk titik akhir multi-model, lihat blog dan sumber daya berikut: