Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Adaptor Kain Elastis untuk HPC dan beban kerja ML di Amazon EC2
Elastic Fabric Adapter (EFA) adalah perangkat jaringan yang dapat Anda lampirkan ke EC2 instans Amazon untuk mempercepat aplikasi High Performance Computing (HPC) dan machine learning. EFAmemungkinkan Anda mencapai kinerja aplikasi HPC klaster lokal, dengan skalabilitas, fleksibilitas, dan elastisitas yang disediakan oleh Cloud. AWS
EFAsmemberikan latensi yang lebih rendah dan lebih konsisten serta throughput yang lebih tinggi daripada TCP transportasi yang secara tradisional digunakan dalam sistem berbasis cloudHPC. Ini meningkatkan kinerja komunikasi antar-instance yang sangat penting untuk aplikasi penskalaan HPC dan pembelajaran mesin. Hal ini dioptimalkan untuk bekerja pada infrastruktur AWS jaringan yang ada dan dapat skala tergantung pada persyaratan aplikasi.
EFAsterintegrasi dengan Libfabric 1.7.0 dan yang lebih baru dan mendukung Open MPI 5 dan yang lebih baru dan Intel MPI 2019 Update 5 dan yang lebih baru untuk HPC aplikasi, dan Nvidia Collective Communications Library (NCCL) untuk aplikasi pembelajaran mesin.
catatan
Kemampuan OS-bypass tidak EFAs didukung pada instance Windows. Jika Anda melampirkan EFA ke instance Windows, instance berfungsi sebagai Adaptor Jaringan Elastis, tanpa EFA kemampuan tambahan.
Daftar Isi
EFAdasar-dasar
An EFA adalah Adaptor Jaringan Elastis (ENA) dengan kemampuan tambahan. Ini menyediakan semua fungsionalitasENA, dengan fungsionalitas OS-bypass tambahan. OS-bypass adalah model akses yang memungkinkan HPC dan aplikasi pembelajaran mesin untuk berkomunikasi langsung dengan perangkat keras antarmuka jaringan untuk menyediakan latensi rendah, fungsionalitas transportasi yang andal.
Secara tradisional, HPC aplikasi menggunakan Message Passing Interface (MPI) untuk berinteraksi dengan transportasi jaringan sistem. Di AWS Cloud, ini berarti antarmuka aplikasi denganMPI, yang kemudian menggunakan tumpukan TCP /IP sistem operasi dan driver ENA perangkat untuk mengaktifkan komunikasi jaringan antar instance.
DenganEFA, HPC aplikasi menggunakan MPI atau NCCL berinteraksi dengan LibfabricAPI. Libfabric API melewati kernel sistem operasi dan berkomunikasi langsung dengan EFA perangkat untuk meletakkan paket di jaringan. Ini mengurangi overhead dan memungkinkan HPC aplikasi berjalan lebih efisien.
catatan
Libfabric adalah komponen inti dari kerangka OpenFabrics Interfaces (OFI), yang mendefinisikan dan mengekspor ruang pengguna. API OFI Untuk informasi lebih lanjut, lihat situs OpenFabrics web Libfabric
Perbedaan antara EFAs dan ENAs
Elastic Network Adapters (ENAs) menyediakan fitur jaringan IP tradisional yang diperlukan untuk mendukung VPC jaringan. EFAsmenyediakan semua fitur jaringan IP tradisional yang sama sepertiENAs, dan mereka juga mendukung kemampuan OS-bypass. OS-bypass memungkinkan HPC dan aplikasi pembelajaran mesin untuk mem-bypass kernel sistem operasi dan untuk berkomunikasi langsung dengan perangkat. EFA
Antarmuka dan pustaka yang didukung
EFAsmendukung antarmuka dan pustaka berikut:
-
Buka MPI 5 dan kemudian
-
Open MPI 4.0 atau yang lebih baru lebih disukai untuk Graviton
-
Pembaruan Intel MPI 2019 5 dan yang lebih baru
-
NVIDIAPerpustakaan Komunikasi Kolektif (NCCL) 2.4.2 dan yang lebih baru
Tipe instans yang didukung
Jenis instans berikut mendukung EFAs:
-
Tujuan umum:
m5dn.24xlarge
m5dn.metal
|m5n.24xlarge
|m5n.metal
|m5zn.12xlarge
m5zn.metal
|m6a.48xlarge
|m6a.metal
|m6i.32xlarge
|m6i.metal
|m6id.32xlarge
m6id.metal
|m6idn.32xlarge
|m6idn.metal
|m6in.32xlarge
|m6in.metal
|m7a.48xlarge
m7a.metal-48xl
|m7g.16xlarge
|m7g.metal
|m7gd.16xlarge
|m7gd.metal
|m7i.48xlarge
m7i.metal-48xl
|m8g.24xlarge
|m8g.48xlarge
|m8g.metal-24xl
|m8g.metal-48xl
-
Komputasi yang dioptimalkan:
c5n.9xlarge
|c5n.18xlarge
|c5n.metal
|c6a.48xlarge
|c6a.metal
|c6gn.16xlarge
|c6i.32xlarge
|c6i.metal
|c6id.32xlarge
|c6id.metal
|c6in.32xlarge
|c6in.metal
|c7a.48xlarge
|c7a.metal-48xl
|c7g.16xlarge
|c7g.metal
|c7gd.16xlarge
|c7gd.metal
|c7gn.16xlarge
|c7gn.metal
|c7i.48xlarge
|c7i.metal-48xl
|c8g.24xlarge
|c8g.48xlarge
|c8g.metal-24xl
|c8g.metal-48xl
-
Memori dioptimalkan:
r5dn.24xlarge
r5dn.metal
r5n.24xlarge
r5n.metal
|r6a.48xlarge
|r6a.metal
|r6i.32xlarge
|r6i.metal
|r6idn.32xlarge
|r6idn.metal
|r6in.32xlarge
|r6in.metal
|r6id.32xlarge
|r6id.metal
|r7a.48xlarge
|r7a.metal-48xl
|r7g.16xlarge
|r7g.metal
|r7gd.16xlarge
|r7gd.metal
|r7i.48xlarge
|r7i.metal-48xl
|r7iz.32xlarge
|r7iz.metal-32xl
|r8g.24xlarge
|r8g.48xlarge
|r8g.metal-24xl
|r8g.metal-48xl
|u7i-12tb.224xlarge
|u7in-16tb.224xlarge
|u7in-24tb.224xlarge
|u7in-32tb.224xlarge
|x2idn.32xlarge
|x2idn.metal
|x2iedn.32xlarge
|x2iedn.metal
|x2iezn.12xlarge
|x2iezn.metal
|x8g.24xlarge
|x8g.48xlarge
|x8g.metal-24xl
|x8g.metal-48xl
-
Penyimpanan yang dioptimalkan:
i3en.12xlarge
|i3en.24xlarge
|i3en.metal
|i4g.16xlarge
|i4i.32xlarge
|i4i.metal
|im4gn.16xlarge
-
Komputasi dipercepat:
dl1.24xlarge
dl2q.24xlarge
g4dn.8xlarge
g4dn.12xlarge
g4dn.16xlarge
|g4dn.metal
|g5.8xlarge
|g5.12xlarge
|g5.16xlarge
|g5.24xlarge
|g5.48xlarge
|g6.8xlarge
|g6.12xlarge
g6.16xlarge
|g6.24xlarge
|g6.48xlarge
|g6e.8xlarge
|g6e.12xlarge
|g6e.16xlarge
|g6e.24xlarge
|g6e.48xlarge
|gr6.8xlarge
|inf1.24xlarge
|p3dn.24xlarge
p4d.24xlarge
|p4de.24xlarge
|p5.48xlarge
|p5e.48xlarge
|trn1.32xlarge
|trn1n.32xlarge
|vt1.24xlarge
-
Komputasi kinerja tinggi:
hpc6a.48xlarge
hpc6id.32xlarge
|hpc7a.12xlarge
|hpc7a.24xlarge
| |hpc7a.48xlarge
|hpc7a.96xlarge
|hpc7g.4xlarge
|hpc7g.8xlarge
hpc7g.16xlarge
Untuk melihat jenis instans yang tersedia yang mendukung EFAs di Wilayah tertentu
Tipe instans yang tersedia berbeda-beda menurut Wilayah. Untuk melihat jenis instance yang tersedia yang mendukung EFAs di Region, gunakan describe-instance-typesperintah dengan --region
parameter. Sertakan --filters
parameter untuk cakupan hasil ke jenis instance yang mendukung EFA dan --query
parameter untuk cakupan output ke nilaiInstanceType
.
aws ec2 describe-instance-types --region
us-east-1
--filters Name=network-info.efa-supported,Values=true --query "InstanceTypes[*].[InstanceType]" --output text | sort
Sistem operasi yang didukung
Dukungan sistem operasi berbeda tergantung pada jenis prosesor. Tabel berikut menunjukkan sistem operasi yang didukung.
Sistem operasi | Intel/ AMD (x86_64 ) jenis contoh |
AWS Graviton (arm64 ) jenis contoh |
---|---|---|
Amazon Linux 2023 | ✓ | ✓ |
Amazon Linux 2 | ✓ | ✓ |
RHEL8 dan 9 | ✓ | ✓ |
Debian 10 dan 11 | ✓ | ✓ |
Rocky Linux 8 dan 9 | ✓ | ✓ |
Ubuntu 20.04, 22.04, dan 24.04 | ✓ | ✓ |
SUSELinux Enterprise 15 SP2 dan yang lebih baru | ✓ | ✓ |
Buka SUSE Leap 15.5 dan yang lebih baru | ✓ |
catatan
Ubuntu 20.04 mendukung dukungan peer direct saat digunakan dengan dl1.24xlarge
instans.
EFAketerbatasan
EFAsmemiliki batasan berikut:
-
Semua jenis instans P4d dan P5 mendukung NVIDIA GPUDirect Remote Direct Memory Access (). RDMA
-
EFAlalu lintas antara instance P4D/P4DE/ dan jenis DL1 instans lainnya saat ini tidak didukung.
-
Jenis instans yang mendukung beberapa kartu jaringan dapat dikonfigurasi dengan satu EFA per kartu jaringan. Semua jenis instans lain yang didukung hanya mendukung satu EFA per instance.
-
Untuk
c7g.16xlarge
,m7g.16xlarge
dan Instansr7g.16xlarge
Khusus dan Host Khusus tidak didukung saat EFA dilampirkan. -
EFALalu lintas OS-bypass tidak dapat melintasi Availability Zone atau. VPCs Dengan kata lain, lalu lintas EFA OS-bypass tidak dapat mengalir dari satu Availability Zone atau VPC (dengan atau tanpa koneksi VPC peering) ke yang lain. Ini tidak berlaku untuk lalu lintas IP dariEFA.
-
EFALalu lintas OS-bypass tidak dapat dikirim melalui subnet di Zona Lokal.
-
EFALalu lintas OS-bypass tidak dapat dirutekan. Lalu lintas IP normal dari EFA tetap dapat dirutekan.
-
EFAHarus menjadi anggota grup keamanan yang memungkinkan semua lalu lintas masuk dan keluar ke dan dari grup keamanan itu sendiri.
-
EFAtidak didukung pada instance Windows.
-
EFAtidak didukung di AWS Outposts.
EFAharga
EFAtersedia sebagai fitur EC2 jaringan Amazon opsional yang dapat Anda aktifkan pada instans apa pun yang didukung tanpa biaya tambahan.