Bagaimana EI Bekerja

Akselerator Amazon Elastic Inference adalah perangkat terpasang jaringan yang bekerja bersama SageMaker instans di titik akhir Anda untuk mempercepat panggilan inferensi Anda. Elastic Inference mempercepat inferensi dengan memungkinkan Anda memasang GPU fraksional ke instance apa pun. SageMaker Anda dapat memilih instance klien untuk menjalankan aplikasi Anda dan melampirkan akselerator Elastic Inference untuk menggunakan jumlah akselerasi GPU yang tepat untuk kebutuhan inferensi Anda. Elastic Inference membantu Anda menurunkan biaya saat tidak sepenuhnya memanfaatkan instans GPU Anda untuk inferensi. Sebaiknya coba Elastic Inference dengan model Anda menggunakan instans CPU dan ukuran akselerator yang berbeda.

Jenis akselerator EI berikut tersedia. Anda dapat mengonfigurasi titik akhir atau instance notebook dengan jenis akselerator EI apa pun.

Dalam tabel, throughput dalam teraflops (TFLOPS) terdaftar untuk operasi floating-point presisi tunggal (F32) dan floating-point setengah presisi (F16). Memori dalam GB juga terdaftar.

Jenis Akselerator	Throughput F32 di TFLOPS	Throughput F16 di TFLOPS	Memori dalam GB
ml.eia2.sedang	1	8	2
ml.eia2.large	2	16	4
ml.eia2.xlarge	4	32	8
ml.eia1.sedang	1	8	1
ml.eia1.large	2	16	2
ml.eia1.xlarge	4	32	4

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Elastic Inference

Siapkan untuk Menggunakan EI