Praktik terbaik untuk menerapkan model pada SageMaker Layanan Hosting - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Praktik terbaik untuk menerapkan model pada SageMaker Layanan Hosting

Saat menghosting model menggunakan layanan SageMaker hosting, pertimbangkan hal berikut:

  • Biasanya, aplikasi klien mengirimkan permintaan ke SageMaker HTTPS titik akhir untuk mendapatkan kesimpulan dari model yang diterapkan. Anda juga dapat mengirim permintaan ke titik akhir ini dari buku catatan Jupyter Anda selama pengujian.

  • Anda dapat menerapkan model yang dilatih dengan SageMaker target penyebaran Anda sendiri. Untuk melakukan itu, Anda perlu mengetahui format khusus algoritme dari artefak model yang dihasilkan oleh pelatihan model. Untuk informasi selengkapnya tentang format keluaran, lihat bagian yang sesuai dengan algoritme yang Anda gunakanFormat Data Umum untuk Pelatihan.

  • Anda dapat menerapkan beberapa varian model ke titik SageMaker HTTPS akhir yang sama. Ini berguna untuk menguji variasi model dalam produksi. Misalnya, misalkan Anda telah menerapkan model ke dalam produksi. Anda ingin menguji variasi model dengan mengarahkan sejumlah kecil lalu lintas, katakanlah 5%, ke model baru. Untuk melakukan ini, buat konfigurasi titik akhir yang menjelaskan kedua varian model. Anda menentukan ProductionVariant dalam permintaan Anda keCreateEndPointConfig. Untuk informasi selengkapnya, lihat ProductionVariant.

  • Anda dapat mengonfigurasi ProductionVariant untuk menggunakan Application Auto Scaling. Untuk informasi tentang mengonfigurasi penskalaan otomatis, lihat. Penskalaan otomatis model Amazon SageMaker

  • Anda dapat memodifikasi titik akhir tanpa mengambil model yang sudah digunakan ke dalam produksi di luar layanan. Misalnya, Anda dapat menambahkan varian model baru, memperbarui konfigurasi instans Komputasi ML dari varian model yang ada, atau mengubah distribusi lalu lintas antar varian model. Untuk memodifikasi endpoint, Anda menyediakan konfigurasi endpoint baru. SageMaker mengimplementasikan perubahan tanpa downtime. Untuk informasi lebih lanjut lihat, UpdateEndpointdan UpdateEndpointWeightsAndCapacities.

  • Mengubah atau menghapus artefak model atau mengubah kode inferensi setelah menerapkan model menghasilkan hasil yang tidak terduga. Jika Anda perlu mengubah atau menghapus artefak model atau mengubah kode inferensi, ubah titik akhir dengan menyediakan konfigurasi titik akhir baru. Setelah Anda memberikan konfigurasi endpoint baru, Anda dapat mengubah atau menghapus artefak model yang sesuai dengan konfigurasi endpoint lama.

  • Jika Anda ingin mendapatkan kesimpulan tentang seluruh kumpulan data, pertimbangkan untuk menggunakan transformasi batch sebagai alternatif untuk layanan hosting. Untuk informasi, lihat Transformasi Batch untuk inferensi dengan Amazon SageMaker

Terapkan Beberapa Instance di Seluruh Availability Zone

Buat titik akhir yang kuat saat menghosting model Anda. SageMakerendpoint dapat membantu melindungi aplikasi Anda dari pemadaman Availability Zone dan kegagalan instans. Jika terjadi pemadaman atau instans gagal, SageMaker secara otomatis mencoba mendistribusikan instans Anda di seluruh Availability Zone. Untuk alasan ini, kami sangat menyarankan agar Anda menerapkan beberapa instance untuk setiap titik akhir produksi.

Jika Anda menggunakan Amazon Virtual Private Cloud (VPC), konfigurasikan VPC dengan setidaknya dua Subnets, masing-masing di Availability Zone yang berbeda. Jika terjadi pemadaman atau instans gagal, Amazon SageMaker secara otomatis mencoba mendistribusikan instans Anda di seluruh Availability Zone.

Secara umum, untuk mencapai kinerja yang lebih andal, gunakan lebih banyak Jenis Instance kecil di Availability Zone yang berbeda untuk meng-host endpoint Anda.

Menyebarkan komponen inferensi untuk ketersediaan tinggi. Selain rekomendasi di atas untuk nomor instans, untuk mencapai ketersediaan 99,95%, pastikan komponen inferensi Anda dikonfigurasi untuk memiliki lebih dari dua salinan. Selain itu, dalam kebijakan penskalaan otomatis terkelola, tetapkan jumlah minimum instans menjadi dua juga.