Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Sumber daya untuk menggunakan Triton Inference Server dengan Amazon SageMaker
SageMaker memungkinkan pelanggan untuk menerapkan model menggunakan kode khusus dengan NVIDIA Triton Inference Server. Gunakan sumber daya berikut untuk mempelajari cara menggunakan Triton Inference Server dengan. SageMaker
Fungsionalitas ini tersedia melalui pengembangan Triton Inference Server Containers. Kontainer ini termasuk NVIDIA Triton Inference Server, dukungan untuk kerangka kerja MLM umum, dan variabel lingkungan berguna yang memungkinkan Anda mengoptimalkan kinerja. SageMaker Untuk daftar semua gambar Deep Learning Containers yang tersedia, lihat Gambar Deep Learning Containers yang Tersedia
Anda dapat menggunakan Triton Inference Server Container dengan SageMaker Python SDK seperti halnya wadah lain dalam model Anda. SageMaker Namun, menggunakan SageMaker Python SDK adalah opsional. Anda dapat menggunakan Triton Inference Server Containers dengan dan. AWS CLI AWS SDK for Python (Boto3)
Untuk informasi lebih lanjut tentang NVIDIA Triton Inference Server lihat dokumentasi Triton.
Inferensi
catatan
Backend Triton Python menggunakan memori bersama (SHMEM) untuk menghubungkan kode Anda ke Triton. SageMaker Inferensi menyediakan hingga setengah dari memori instance SHMEM sehingga Anda dapat menggunakan instance dengan lebih banyak memori untuk SHMEM ukuran yang lebih besar.
Untuk inferensi, Anda dapat menggunakan model MLmu yang terlatih dengan Triton Inference Server untuk menerapkan pekerjaan inferensi. SageMaker
Beberapa fitur utama dari Triton Inference Server Container adalah:
-
Support untuk beberapa kerangka kerja: Triton dapat digunakan untuk menyebarkan model dari semua kerangka kerja MS utama. Triton mendukung TensorFlow GraphDef dan SavedModel,, PyTorch TorchScript TensorRTONNX, dan format model Python/C++ kustom.
-
Pipa model: Ansambel model Triton mewakili pipa dari satu model dengan logika pemrosesan pra/pasca dan koneksi tensor input dan output di antara keduanya. Permintaan inferensi tunggal ke ansambel memicu eksekusi seluruh pipeline.
-
Eksekusi model bersamaan: Beberapa contoh dari model yang sama dapat berjalan secara bersamaan pada yang sama GPU atau pada beberapa. GPUs
-
Batching dinamis: Untuk model yang mendukung batching, Triton memiliki beberapa algoritma penjadwalan dan batching bawaan yang menggabungkan permintaan inferensi individu bersama-sama untuk meningkatkan throughput inferensi. Keputusan penjadwalan dan batching ini transparan bagi klien yang meminta inferensi.
-
Beragam CPU dan GPU mendukung: Model dapat dijalankan pada CPUs atau GPUs untuk fleksibilitas maksimum dan untuk mendukung persyaratan komputasi heterogen.
Apa yang ingin kau lakukan?
- Saya ingin menerapkan PyTorch model terlatih saya di SageMaker.
-
Untuk contoh Notebook Jupyter, lihat contoh Menerapkan model PyTorch Resnet50 Anda dengan
Triton Inference Server contoh. - Saya ingin menerapkan model Hugging Face terlatih saya di. SageMaker
-
Untuk contoh Notebook Jupyter, lihat contoh Menerapkan PyTorch BERT model Anda dengan Triton
Inference Server contoh.