Adaptor Kain Elastis untuk HPC dan beban kerja ML di Amazon EC2 - Amazon Elastic Compute Cloud

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Adaptor Kain Elastis untuk HPC dan beban kerja ML di Amazon EC2

Elastic Fabric Adapter (EFA) adalah perangkat jaringan yang dapat Anda lampirkan ke EC2 instans Amazon untuk mempercepat aplikasi High Performance Computing (HPC) dan machine learning. EFAmemungkinkan Anda mencapai kinerja aplikasi HPC klaster lokal, dengan skalabilitas, fleksibilitas, dan elastisitas yang disediakan oleh Cloud. AWS

EFAsmemberikan latensi yang lebih rendah dan lebih konsisten serta throughput yang lebih tinggi daripada TCP transportasi yang secara tradisional digunakan dalam sistem berbasis cloudHPC. Ini meningkatkan kinerja komunikasi antar-instance yang sangat penting untuk aplikasi penskalaan HPC dan pembelajaran mesin. Hal ini dioptimalkan untuk bekerja pada infrastruktur AWS jaringan yang ada dan dapat skala tergantung pada persyaratan aplikasi.

EFAsterintegrasi dengan Libfabric 1.7.0 dan yang lebih baru dan mendukung Open MPI 5 dan yang lebih baru dan Intel MPI 2019 Update 5 dan yang lebih baru untuk HPC aplikasi, dan Nvidia Collective Communications Library (NCCL) untuk aplikasi pembelajaran mesin.

catatan

Kemampuan OS-bypass tidak EFAs didukung pada instance Windows. Jika Anda melampirkan EFA ke instance Windows, instance berfungsi sebagai Adaptor Jaringan Elastis, tanpa EFA kemampuan tambahan.

EFAdasar-dasar

An EFA adalah Adaptor Jaringan Elastis (ENA) dengan kemampuan tambahan. Ini menyediakan semua fungsionalitasENA, dengan fungsionalitas OS-bypass tambahan. OS-bypass adalah model akses yang memungkinkan HPC dan aplikasi pembelajaran mesin untuk berkomunikasi langsung dengan perangkat keras antarmuka jaringan untuk menyediakan latensi rendah, fungsionalitas transportasi yang andal.

Membandingkan tumpukan HPC perangkat lunak tradisional dengan yang menggunakan fileEFA.

Secara tradisional, HPC aplikasi menggunakan Message Passing Interface (MPI) untuk berinteraksi dengan transportasi jaringan sistem. Di AWS Cloud, ini berarti antarmuka aplikasi denganMPI, yang kemudian menggunakan tumpukan TCP /IP sistem operasi dan driver ENA perangkat untuk mengaktifkan komunikasi jaringan antar instance.

DenganEFA, HPC aplikasi menggunakan MPI atau NCCL berinteraksi dengan LibfabricAPI. Libfabric API melewati kernel sistem operasi dan berkomunikasi langsung dengan EFA perangkat untuk meletakkan paket di jaringan. Ini mengurangi overhead dan memungkinkan HPC aplikasi berjalan lebih efisien.

catatan

Libfabric adalah komponen inti dari kerangka OpenFabrics Interfaces (OFI), yang mendefinisikan dan mengekspor ruang pengguna. API OFI Untuk informasi lebih lanjut, lihat situs OpenFabrics web Libfabric.

Perbedaan antara EFAs dan ENAs

Elastic Network Adapters (ENAs) menyediakan fitur jaringan IP tradisional yang diperlukan untuk mendukung VPC jaringan. EFAsmenyediakan semua fitur jaringan IP tradisional yang sama sepertiENAs, dan mereka juga mendukung kemampuan OS-bypass. OS-bypass memungkinkan HPC dan aplikasi pembelajaran mesin untuk mem-bypass kernel sistem operasi dan untuk berkomunikasi langsung dengan perangkat. EFA

Antarmuka dan pustaka yang didukung

EFAsmendukung antarmuka dan pustaka berikut:

  • Buka MPI 5 dan setelahnya

  • Open MPI 4.0 atau yang lebih baru lebih disukai untuk Graviton

  • Pembaruan Intel MPI 2019 5 dan yang lebih baru

  • NVIDIAPerpustakaan Komunikasi Kolektif (NCCL) 2.4.2 dan yang lebih baru

Tipe instans yang didukung

Jenis instans berikut mendukung EFAs:

  • Tujuan umum: m5dn.24xlarge m5dn.metal | m5n.24xlarge | m5n.metal | m5zn.12xlarge m5zn.metal | m6a.48xlarge | m6a.metal | m6i.32xlarge | m6i.metal | m6id.32xlarge m6id.metal | m6idn.32xlarge | m6idn.metal | m6in.32xlarge | m6in.metal | m7a.48xlarge m7a.metal-48xl | m7g.16xlarge | m7g.metal | m7gd.16xlarge | m7gd.metal | m7i.48xlarge m7i.metal-48xl | m8g.24xlarge | m8g.48xlarge | m8g.metal-24xl | m8g.metal-48xl

  • Komputasi yang dioptimalkan: c5n.9xlarge | c5n.18xlarge | c5n.metal | c6a.48xlarge | c6a.metal | c6gn.16xlarge | c6i.32xlarge | c6i.metal | c6id.32xlarge | c6id.metal | c6in.32xlarge | c6in.metal | c7a.48xlarge | c7a.metal-48xl | c7g.16xlarge | c7g.metal | c7gd.16xlarge | c7gd.metal | c7gn.16xlarge | c7gn.metal | c7i.48xlarge | c7i.metal-48xl | c8g.24xlarge | c8g.48xlarge | c8g.metal-24xl | c8g.metal-48xl

  • Memori dioptimalkan: r5dn.24xlarge r5dn.metal r5n.24xlarge r5n.metal | r6a.48xlarge | r6a.metal | r6i.32xlarge | r6i.metal | r6idn.32xlarge | r6idn.metal | r6in.32xlarge | r6in.metal | r6id.32xlarge | r6id.metal | r7a.48xlarge | r7a.metal-48xl | r7g.16xlarge | r7g.metal | r7gd.16xlarge | r7gd.metal | r7i.48xlarge | r7i.metal-48xl | r7iz.32xlarge | r7iz.metal-32xl | r8g.24xlarge | r8g.48xlarge | r8g.metal-24xl | r8g.metal-48xl | u7i-12tb.224xlarge | u7in-16tb.224xlarge | u7in-24tb.224xlarge | u7in-32tb.224xlarge | x2idn.32xlarge | x2idn.metal | x2iedn.32xlarge | x2iedn.metal | x2iezn.12xlarge | x2iezn.metal| x8g.24xlarge | x8g.48xlarge | x8g.metal-24xl | x8g.metal-48xl

  • Penyimpanan yang dioptimalkan: i3en.12xlarge | i3en.24xlarge | i3en.metal | i4g.16xlarge | i4i.32xlarge | i4i.metal | im4gn.16xlarge

  • Komputasi dipercepat: dl1.24xlarge dl2q.24xlarge g4dn.8xlarge g4dn.12xlarge g4dn.16xlarge | g4dn.metal | g5.8xlarge | g5.12xlarge | g5.16xlarge g5.24xlarge | g5.48xlarge | g6.8xlarge | g6.12xlarge | g6.16xlarge | g6.24xlarge | g6.48xlarge | g6e.8xlarge g6e.12xlarge | g6e.16xlarge | g6e.24xlarge | g6e.48xlarge | gr6.8xlarge | inf1.24xlarge | p3dn.24xlarge | p4d.24xlarge p4de.24xlarge | p5.48xlarge | p5e.48xlarge | trn1.32xlarge | trn1n.32xlarge | vt1.24xlarge

  • Komputasi berkinerja tinggi: hpc6a.48xlarge hpc6id.32xlarge hpc7a.12xlarge | hpc7a.24xlarge | | hpc7a.48xlarge | hpc7a.96xlarge | hpc7g.4xlarge | hpc7g.8xlarge hpc7g.16xlarge

Untuk melihat jenis instans yang tersedia yang mendukung EFAs di Wilayah tertentu

Tipe instans yang tersedia berbeda-beda menurut Wilayah. Untuk melihat jenis instance yang tersedia yang mendukung EFAs di Region, gunakan describe-instance-typesperintah dengan --region parameter. Sertakan --filters parameter untuk cakupan hasil ke jenis instance yang mendukung EFA dan --query parameter untuk cakupan output ke nilaiInstanceType.

aws ec2 describe-instance-types --region us-east-1 --filters Name=network-info.efa-supported,Values=true --query "InstanceTypes[*].[InstanceType]" --output text | sort

Sistem operasi yang didukung

Dukungan sistem operasi berbeda tergantung pada jenis prosesor. Tabel berikut menunjukkan sistem operasi yang didukung.

Sistem operasi Intel/ AMD (x86_64) jenis contoh AWS Graviton (arm64) jenis contoh
Amazon Linux 2023
Amazon Linux 2
RHEL8 dan 9
Debian 10 dan 11
Rocky Linux 8 dan 9
Ubuntu 20.04, 22.04, dan 24.04
SUSELinux Enterprise 15 SP2 dan yang lebih baru
Buka SUSE Leap 15.5 dan yang lebih baru
catatan

Ubuntu 20.04 mendukung dukungan peer direct saat digunakan dengan dl1.24xlarge instans.

EFAketerbatasan

EFAsmemiliki batasan sebagai berikut:

  • Semua jenis instans P4d dan P5 mendukung NVIDIA GPUDirect Remote Direct Memory Access (). RDMA

  • EFAlalu lintas antara instance P4D/P4DE/ dan jenis DL1 instans lainnya saat ini tidak didukung.

  • Jenis instans yang mendukung beberapa kartu jaringan dapat dikonfigurasi dengan satu EFA per kartu jaringan. Semua jenis instans lain yang didukung hanya mendukung satu EFA per instance.

  • Untukc7g.16xlarge, m7g.16xlarge dan Instans r7g.16xlarge Khusus dan Host Khusus tidak didukung saat EFA dilampirkan.

  • EFALalu lintas OS-bypass tidak dapat melintasi Availability Zone atau. VPCs Dengan kata lain, lalu lintas EFA OS-bypass tidak dapat mengalir dari satu Availability Zone atau VPC (dengan atau tanpa koneksi VPC peering) ke yang lain. Ini tidak berlaku untuk lalu lintas IP dariEFA.

  • EFALalu lintas OS-bypass tidak dapat dikirim melalui subnet di Zona Lokal.

  • EFALalu lintas OS-bypass tidak dapat dirutekan. Lalu lintas IP normal dari EFA tetap dapat dirutekan.

  • EFAHarus menjadi anggota grup keamanan yang memungkinkan semua lalu lintas masuk dan keluar ke dan dari grup keamanan itu sendiri.

  • EFAtidak didukung pada instance Windows.

  • EFAtidak didukung di AWS Outposts.

EFAharga

EFAtersedia sebagai fitur EC2 jaringan Amazon opsional yang dapat Anda aktifkan pada instans apa pun yang didukung tanpa biaya tambahan.