Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Adaptor Kain Elastis untuk AI/ML dan beban HPC kerja di Amazon EC2
Elastic Fabric Adapter (EFA) adalah perangkat jaringan yang dapat dipasang ke EC2 instans Amazon Anda untuk mempercepat Artificial Intelligence (AI), Machine Learning (ML), dan High Performance Computing (HPC). EFAmemungkinkan Anda untuk mencapai kinerja aplikasi AI/MLs on-premise atau HPC klaster, dengan skalabilitas, fleksibilitas, dan elastisitas yang disediakan oleh Cloud. AWS
EFAmemberikan latensi yang lebih rendah dan lebih konsisten serta throughput yang lebih tinggi dibandingkan TCP transportasi yang secara tradisional digunakan dalam sistem berbasis cloudHPC. EF meningkatkan kinerja komunikasi antarinstans yang sangat penting untuk menskalakan AI/L dan aplikasi. HPC EPA dioptimalkan untuk bekerja pada infrastruktur AWS jaringan yang ada dan dapat menskalakan tergantung pada persyaratan aplikasi.
EFAterintegrasi dengan Libfabric 1.7.0 dan yang lebih baru, dan mendukung Nvidia Collective Communications Library (NCCL) untuk aplikasi AI dan L, dan Open MPI 4 dan yang lebih baru dan Intel MPI 2019 Update 5 dan yang lebih baru untuk aplikasi. HPC
Daftar Isi
- EFAdasar-dasar
- Antarmuka dan pustaka yang didukung
- Tipe instans yang didukung
- Sistem operasi yang didukung
- EFAketerbatasan
- EFAHarga
- Memulai dengan EFA dan MPI
- Memulai dengan EFA dan NCCL
- Memaksimalkan bandwidth jaringan
- Buat dan lampirkan EFA
- Melepaskan dan menghapus EFA
- Memantau sebuah EFA
- Verifikasi EFA penginstal
EFAdasar-dasar
EFAPerangkat dapat dilampirkan ke EC2 instance dengan dua cara:
-
Menggunakan EFA antarmuka tradisional, juga disebut EFA denganENA, yang menciptakan EFA perangkat dan ENA perangkat.
-
Menggunakan antarmuka EFA -only, yang hanya membuat EFA perangkat.
EFAPerangkat ini menyediakan kemampuan seperti OS-bypass bawaan dan kontrol kemacetan melalui protokol Scalable Reliable Datagram (). SRD Fitur EFA perangkat memungkinkan latensi rendah, fungsionalitas transportasi andal yang memungkinkan EFA antarmuka untuk memberikan kinerja aplikasi yang lebih baik untuk HPC dan aplikasi ML di Amazon. EC2 Sementara ENA perangkat menawarkan jaringan IP tradisional.
Secara tradisional, aplikasi AI/ML menggunakan NCCL dan HPC aplikasi menggunakan Message Passing Interface (MPI) untuk menghubungkan transportasi jaringan sistem. Di AWS cloud, ini berarti bahwa aplikasi terhubung dengan NCCL atauMPI, yang kemudian menggunakan tumpukan TCP /IP pada sistem operasi dan driver ENA perangkat untuk memungkinkan komunikasi jaringan antar instans.
Dengan antarmuka tradisional EFA (EFAdenganENA) atau EFA -only, AI/ML applications use NCCL and HPC applications use MPI, to interface directly with the Libfabric API. The Libfabric API bypasses the operating system kernel and communicates directly with the EFA device to put packets on the network. This reduces overhead and enables AI/ML dan HPC aplikasi berjalan lebih efisien.
catatan
Libfabric adalah komponen inti dari Kerangka kerja OpenFabrics Interfaces (OFI), yang menentukan dan mengekspor ruang pengguna. API OFI Untuk informasi selengkapnya, lihat situs OpenFabrics web Libfabric
Perbedaan antaraENA,EFA, dan EFA -only antarmuka jaringan
Amazon EC2 menyediakan dua tipe antarmuka jaringan:
-
ENAantarmuka menyediakan semua jaringan IP tradisional dan fitur routing yang diperlukan untuk mendukung jaringan IP untuk jaringan IP. VPC Untuk informasi selengkapnya, lihat Aktifkan jaringan yang ENA disempurnakan dengan EC2 instans Anda.
-
EFA(EFAdenganENA) antarmuka menyediakan perangkat untuk jaringan IP dan ENA perangkat untuk komunikasi latensi rendah dan throughput tinggi. EFA
-
EFA-Hanya antarmuka hanya mendukung kemampuan EFA perangkat, tanpa ENA perangkat untuk jaringan IP tradisional.
Tabel berikut memberikan perbandinganENA,EFA, dan EFA -hanya antarmuka jaringan.
ENA | EFA(EFAdenganENA) | EFA-hanya | |
---|---|---|---|
Mendukung fungsionalitas jaringan IP | Ya | Ya | Tidak |
Dapat ditugaskan IPv4 atau IPv6 alamat | Ya | Ya | Tidak |
Dapat digunakan sebagai antarmuka jaringan utama misalnya | Ya | Ya | Tidak |
Menghitung batas ENI lampiran misalnya | Ya | Ya | Ya |
Tipe Instans | Didukung pada semua tipe instans berbasis Nitro | Jenis instans yang didukung | Jenis instans yang didukung |
Penamaan parameter di EC2 APIs | interface |
efa |
efa-only |
Penamaan bidang di EC2 konsol | Tidak ada pilihan | EFAdengan ENA | EFA-hanya |
Antarmuka dan pustaka yang didukung
EFAsmendukung antarmuka dan pustaka berikut:
-
Buka MPI 4 dan yang lebih baru
catatan
Open MPI 4.0 atau yang lebih baru lebih disukai untuk instance berbasis Graviton.
-
Pembaruan Intel MPI 2019 5 dan yang lebih baru
-
NVIDIACollective Communications Library (NCCL) 2.4.2 dan yang lebih baru
-
AWS Neuron SDK versi 2.3 dan yang lebih baru
Tipe instans yang didukung
Jenis instans berikut mendukung EFAs:
Untuk melihat jenis instans yang tersedia yang mendukung EFAs di Wilayah tertentu
Tipe instans yang tersedia berbeda-beda menurut Wilayah. Untuk melihat jenis instance yang tersedia yang mendukung EFAs di Region, gunakan describe-instance-typesperintah dengan --region
parameter. Sertakan --filters
parameter untuk cakupan hasil ke jenis instance yang mendukung EFA dan --query
parameter untuk cakupan output ke nilaiInstanceType
.
aws ec2 describe-instance-types --region
us-east-1
--filters Name=network-info.efa-supported,Values=true --query "InstanceTypes[*].[InstanceType]" --output text | sort
Sistem operasi yang didukung
Dukungan sistem operasi berbeda tergantung pada jenis prosesor. Tabel berikut ini menunjukkan sistem operasi yang didukung.
Sistem operasi | Intel/ AMD (x86_64 ) jenis contoh |
AWS Graviton (arm64 ) jenis contoh |
---|---|---|
Amazon Linux 2023 | ✓ | ✓ |
Amazon Linux 2 | ✓ | ✓ |
RHEL8 dan 9 | ✓ | ✓ |
Debian 10, 11, dan 12 | ✓ | ✓ |
Rocky Linux 8 dan 9 | ✓ | ✓ |
Ubuntu 20.04, 22.04 | ✓ | ✓ |
SUSELinux Enterprise 15 SP2 dan yang lebih baru | ✓ | ✓ |
Buka SUSE Leap 15.5 dan yang lebih baru | ✓ |
catatan
Ubuntu 20.04 mendukung dukungan peer direct saat digunakan dengan dl1.24xlarge
instans.
EFAketerbatasan
EFAsmemiliki batasan berikut:
catatan
EFAlalu lintas mengacu pada lalu lintas yang ditransmisikan melalui EFA perangkat antarmuka EFA (EFAdenganENA) atau EFA -only.
-
EFAlalu lintas antara instance P4D/P4DE/ dan jenis DL1 instans lainnya saat ini tidak didukung.
-
Jenis instans yang mendukung beberapa kartu jaringan dapat dikonfigurasi dengan satu EFA per kartu jaringan. Semua tipe instans yang didukung hanya mendukung satu EFA instans.
-
Untuk
c7g.16xlarge
,m7g.16xlarge
dan Instansr7g.16xlarge
Khusus dan Host Khusus tidak didukung saat EFA dilampirkan. -
EFAlalu lintas tidak dapat melintasi Availability Zone atauVPCs. Ini tidak berlaku untuk lalu lintas IP normal dari ENA perangkat EFA antarmuka.
-
EFALalu lintas tidak dapat dirutekan. Lalu lintas IP normal dari ENA perangkat EFA antarmuka tetap dapat dirutekan.
-
EFAtidak didukung di AWS Outposts.
-
EFAPerangkat antarmuka EFA (EFAdenganENA) didukung pada instance Windows hanya untuk aplikasi berbasis AWS Cloud Digital Interface Software Development Kit (AWS CDI SDK). Jika Anda melampirkan antarmuka EFA (EFAdenganENA) ke instance Windows untuk aplikasi CDI SDK non-berbasis, itu berfungsi sebagai ENA antarmuka, tanpa kemampuan EFA perangkat tambahan. Antarmuka EFA -only tidak didukung oleh aplikasi AWS CDI berbasis pada Windows atau Linux. Untuk informasi selengkapnya, lihat Panduan Pengguna Kit Pengembangan AWS Cloud Digital Interface Perangkat Lunak (AWS CDI SDK).
EFAHarga
EFAtersedia sebagai fitur EC2 jaringan Amazon opsional yang dapat Anda aktifkan pada instans apa pun yang didukung tanpa biaya tambahan.