Sumber daya untuk menggunakan Triton Inference Server dengan Amazon AI SageMaker

Mode fokus

Sumber daya untuk menggunakan Triton Inference Server dengan Amazon AI SageMaker - Amazon SageMaker AI

SageMaker AI memungkinkan pelanggan untuk menerapkan model menggunakan kode khusus dengan NVIDIA Triton Inference Server. Gunakan sumber daya berikut untuk mempelajari cara menggunakan Triton Inference Server dengan AI. SageMaker

Fungsi ini tersedia melalui pengembangan Triton Inference Server Containers. Wadah ini termasuk NVIDIA Triton Inference Server, dukungan untuk kerangka kerja MS umum, dan variabel lingkungan berguna yang memungkinkan Anda mengoptimalkan kinerja pada AI. SageMaker Untuk daftar semua gambar Deep Learning Containers yang tersedia, lihat Gambar Deep Learning Containers yang Tersedia. Gambar Deep Learning Containers dipertahankan dan diperbarui secara berkala dengan patch keamanan.

Anda dapat menggunakan Triton Inference Server Container dengan SageMaker Python SDK seperti halnya wadah lain dalam model AI Anda. SageMaker Namun, menggunakan SageMaker Python SDK adalah opsional. Anda dapat menggunakan Triton Inference Server Containers dengan dan. AWS CLI AWS SDK untuk Python (Boto3)

Untuk informasi lebih lanjut tentang NVIDIA Triton Inference Server lihat dokumentasi Triton.

Inferensi

catatan

Backend Triton Python menggunakan memori bersama (SHMEM) untuk menghubungkan kode Anda ke Triton. SageMaker AI Inference menyediakan hingga setengah dari memori instans sebagai SHMEM sehingga Anda dapat menggunakan instance dengan lebih banyak memori untuk ukuran SHMEM yang lebih besar.

Untuk inferensi, Anda dapat menggunakan model MLmu yang terlatih dengan Triton Inference Server untuk menerapkan pekerjaan inferensi dengan AI. SageMaker

Beberapa fitur utama dari Triton Inference Server Container adalah:

Support untuk beberapa kerangka kerja: Triton dapat digunakan untuk menyebarkan model dari semua kerangka kerja MS utama. Triton mendukung TensorFlow GraphDef dan SavedModel, ONNX,, PyTorch TorchScript TensorRT, dan format model Python/C++ kustom.
Pipa model: Ansambel model Triton mewakili pipa dari satu model dengan logika pemrosesan pra/pasca dan koneksi tensor input dan output di antara keduanya. Permintaan inferensi tunggal ke ansambel memicu eksekusi seluruh pipeline.
Eksekusi model bersamaan: Beberapa instance dari model yang sama dapat berjalan secara bersamaan pada GPU yang sama atau pada beberapa. GPUs
Batching dinamis: Untuk model yang mendukung batching, Triton memiliki beberapa algoritma penjadwalan dan batching bawaan yang menggabungkan permintaan inferensi individu bersama-sama untuk meningkatkan throughput inferensi. Keputusan penjadwalan dan batching ini transparan bagi klien yang meminta inferensi.
Dukungan CPU dan GPU yang beragam: Model dapat dijalankan pada CPUs atau GPUs untuk fleksibilitas maksimum dan untuk mendukung persyaratan komputasi heterogen.

Apa yang ingin kau lakukan?

Saya ingin menerapkan PyTorch model terlatih saya di SageMaker AI.: Untuk contoh Notebook Jupyter, lihat contoh Menerapkan model PyTorch Resnet50 Anda dengan Triton Inference Server contoh.
Saya ingin menerapkan model Hugging Face terlatih saya di AI. SageMaker: Untuk contoh Notebook Jupyter, lihat contoh Menerapkan model PyTorch BERT Anda dengan Triton Inference Server contoh.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

TensorFlow

Referensi API

Topik berikutnya:

Referensi API

Topik sebelumnya:

TensorFlow

Perlu bantuan?

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie