Rekomendasi instans untuk penerapan titik akhir multi-model - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Rekomendasi instans untuk penerapan titik akhir multi-model

Ada beberapa item yang perlu dipertimbangkan saat memilih jenis instans SageMaker ML untuk titik akhir multi-model:

  • Menyediakan kapasitas Amazon Elastic Block Store (AmazonEBS) yang memadai untuk semua model yang perlu dilayani.

  • Menyeimbangkan kinerja (meminimalkan start dingin) dan biaya (jangan terlalu menyediakan kapasitas instans). Untuk informasi tentang ukuran volume penyimpanan yang SageMaker dilampirkan untuk setiap jenis instans untuk titik akhir dan titik akhir multi-model, lihat. Volume penyimpanan instans

  • Untuk wadah yang dikonfigurasi untuk berjalan dalam MultiModel mode, volume penyimpanan yang disediakan untuk instansnya lebih besar dari mode default. SingleModel Hal ini memungkinkan lebih banyak model untuk di-cache pada volume penyimpanan instance daripada dalam SingleModel mode.

Saat memilih jenis instans SageMaker ML, pertimbangkan hal berikut:

  • Titik akhir multi-model saat ini didukung untuk semua jenis CPU instance dan pada tipe instans tunggalGPU.

  • Untuk distribusi lalu lintas (pola akses) ke model yang ingin Anda host di belakang titik akhir multi-model, bersama dengan ukuran model (berapa banyak model yang dapat dimuat dalam memori pada instance), ingatlah informasi berikut:

    • Pikirkan jumlah memori pada instance sebagai ruang cache untuk model yang akan dimuat, dan pikirkan jumlah vCPUs sebagai batas konkurensi untuk melakukan inferensi pada model yang dimuat (dengan asumsi bahwa memanggil model terikat). CPU

    • Untuk instance yang CPU didukung, jumlah vCPUs dampak pemanggilan persetujuan maksimum Anda per instance (dengan asumsi bahwa memanggil model terikat). CPU Jumlah yang lebih tinggi vCPUs memungkinkan Anda untuk memanggil model yang lebih unik secara bersamaan.

    • Untuk instance yang GPU didukung, jumlah instance dan GPU memori yang lebih tinggi memungkinkan Anda memuat lebih banyak model dan siap melayani permintaan inferensi.

    • Untuk instance keduanya CPU dan yang GPU didukung, sediakan beberapa memori “slack” sehingga model yang tidak digunakan dapat dibongkar, dan terutama untuk titik akhir multi-model dengan beberapa instance. Jika instance atau Availability Zone gagal, model pada instance tersebut akan dialihkan ke instance lain di belakang titik akhir.

  • Tentukan toleransi Anda terhadap waktu pemuatan/pengunduhan:

    • Keluarga tipe instance d (misalnya, m5d, c5d, atau r5d) dan g5s dilengkapi dengan NVMe (ekspres memori non-volatile)SSD, yang menawarkan kinerja I/O tinggi dan mungkin mengurangi waktu yang diperlukan untuk mengunduh model ke volume penyimpanan dan untuk wadah memuat model dari volume penyimpanan.

    • Karena tipe instans d dan g5 dilengkapi dengan NVMe SSD penyimpanan, SageMaker tidak melampirkan volume EBS penyimpanan Amazon ke instance komputasi ML ini yang menghosting titik akhir multi-model. Penskalaan otomatis bekerja paling baik ketika model berukuran sama dan homogen, yaitu ketika mereka memiliki latensi inferensi dan persyaratan sumber daya yang serupa.

Anda juga dapat menggunakan panduan berikut untuk membantu Anda mengoptimalkan pemuatan model pada titik akhir multi-model Anda:

Memilih jenis instance yang tidak dapat menampung semua model yang ditargetkan dalam memori

Dalam beberapa kasus, Anda dapat memilih untuk mengurangi biaya dengan memilih jenis instans yang tidak dapat menyimpan semua model yang ditargetkan dalam memori sekaligus. SageMaker secara dinamis membongkar model ketika kehabisan memori untuk memberi ruang bagi model yang baru ditargetkan. Untuk model yang jarang diminta, Anda mengorbankan latensi beban dinamis. Dalam kasus dengan kebutuhan latensi yang lebih ketat, Anda dapat memilih jenis instans yang lebih besar atau lebih banyak instance. Menginvestasikan waktu di muka untuk pengujian dan analisis kinerja membantu Anda untuk memiliki penerapan produksi yang sukses.

Mengevaluasi hits cache model Anda

CloudWatch Metrik Amazon dapat membantu Anda mengevaluasi model Anda. Untuk informasi selengkapnya tentang metrik yang dapat Anda gunakan dengan titik akhir multi-model, lihat. CloudWatch Metrik untuk Penerapan Titik Akhir Multi-Model

Anda dapat menggunakan Average statistik ModelCacheHit metrik untuk memantau rasio permintaan di mana model sudah dimuat. Anda dapat menggunakan SampleCount statistik untuk ModelUnloadingTime metrik untuk memantau jumlah permintaan pembongkaran yang dikirim ke kontainer selama periode waktu tertentu. Jika model dibongkar terlalu sering (indikator thrashing, di mana model sedang dibongkar dan dimuat lagi karena tidak ada ruang cache yang tidak mencukupi untuk set model yang berfungsi), pertimbangkan untuk menggunakan tipe instance yang lebih besar dengan lebih banyak memori atau meningkatkan jumlah instance di belakang titik akhir multi-model. Untuk titik akhir multi-model dengan beberapa instance, ketahuilah bahwa model mungkin dimuat pada lebih dari 1 instance.