Adaptor Kain Elastis untuk AI/ML dan beban HPC kerja di Amazon EC2 - Amazon Elastic Compute Cloud

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Adaptor Kain Elastis untuk AI/ML dan beban HPC kerja di Amazon EC2

Elastic Fabric Adapter (EFA) adalah perangkat jaringan yang dapat dipasang ke EC2 instans Amazon Anda untuk mempercepat Artificial Intelligence (AI), Machine Learning (ML), dan High Performance Computing (HPC). EFAmemungkinkan Anda untuk mencapai kinerja aplikasi AI/MLs on-premise atau HPC klaster, dengan skalabilitas, fleksibilitas, dan elastisitas yang disediakan oleh Cloud. AWS

EFAmemberikan latensi yang lebih rendah dan lebih konsisten serta throughput yang lebih tinggi dibandingkan TCP transportasi yang secara tradisional digunakan dalam sistem berbasis cloudHPC. EF meningkatkan kinerja komunikasi antarinstans yang sangat penting untuk menskalakan AI/L dan aplikasi. HPC EPA dioptimalkan untuk bekerja pada infrastruktur AWS jaringan yang ada dan dapat menskalakan tergantung pada persyaratan aplikasi.

EFAterintegrasi dengan Libfabric 1.7.0 dan yang lebih baru, dan mendukung Nvidia Collective Communications Library (NCCL) untuk aplikasi AI dan L, dan Open MPI 4 dan yang lebih baru dan Intel MPI 2019 Update 5 dan yang lebih baru untuk aplikasi. HPC

EFAdasar-dasar

EFAPerangkat dapat dilampirkan ke EC2 instance dengan dua cara:

  1. Menggunakan EFA antarmuka tradisional, juga disebut EFA denganENA, yang menciptakan EFA perangkat dan ENA perangkat.

  2. Menggunakan antarmuka EFA -only, yang hanya membuat EFA perangkat.

EFAPerangkat ini menyediakan kemampuan seperti OS-bypass bawaan dan kontrol kemacetan melalui protokol Scalable Reliable Datagram (). SRD Fitur EFA perangkat memungkinkan latensi rendah, fungsionalitas transportasi andal yang memungkinkan EFA antarmuka untuk memberikan kinerja aplikasi yang lebih baik untuk HPC dan aplikasi ML di Amazon. EC2 Sementara ENA perangkat menawarkan jaringan IP tradisional.

Membandingkan tumpukan HPC perangkat lunak tradisional dengan tumpukan perangkat lunak yang EFA menggunakan file.

Secara tradisional, aplikasi AI/ML menggunakan NCCL dan HPC aplikasi menggunakan Message Passing Interface (MPI) untuk menghubungkan transportasi jaringan sistem. Di AWS cloud, ini berarti bahwa aplikasi terhubung dengan NCCL atauMPI, yang kemudian menggunakan tumpukan TCP /IP pada sistem operasi dan driver ENA perangkat untuk memungkinkan komunikasi jaringan antar instans.

Dengan antarmuka tradisional EFA (EFAdenganENA) atau EFA -only, AI/ML applications use NCCL and HPC applications use MPI, to interface directly with the Libfabric API. The Libfabric API bypasses the operating system kernel and communicates directly with the EFA device to put packets on the network. This reduces overhead and enables AI/ML dan HPC aplikasi berjalan lebih efisien.

catatan

Libfabric adalah komponen inti dari Kerangka kerja OpenFabrics Interfaces (OFI), yang menentukan dan mengekspor ruang pengguna. API OFI Untuk informasi selengkapnya, lihat situs OpenFabrics web Libfabric.

Perbedaan antaraENA,EFA, dan EFA -only antarmuka jaringan

Amazon EC2 menyediakan dua tipe antarmuka jaringan:

  • ENAantarmuka menyediakan semua jaringan IP tradisional dan fitur routing yang diperlukan untuk mendukung jaringan IP untuk jaringan IP. VPC Untuk informasi selengkapnya, lihat Aktifkan jaringan yang ENA disempurnakan dengan EC2 instans Anda.

  • EFA(EFAdenganENA) antarmuka menyediakan perangkat untuk jaringan IP dan ENA perangkat untuk komunikasi latensi rendah dan throughput tinggi. EFA

  • EFA-Hanya antarmuka hanya mendukung kemampuan EFA perangkat, tanpa ENA perangkat untuk jaringan IP tradisional.

Tabel berikut memberikan perbandinganENA,EFA, dan EFA -hanya antarmuka jaringan.

ENA EFA(EFAdenganENA) EFA-hanya
Mendukung fungsionalitas jaringan IP Ya Ya Tidak
Dapat ditugaskan IPv4 atau IPv6 alamat Ya Ya Tidak
Dapat digunakan sebagai antarmuka jaringan utama misalnya Ya Ya Tidak
Menghitung batas ENI lampiran misalnya Ya Ya Ya
Tipe Instans Didukung pada semua tipe instans berbasis Nitro Jenis instans yang didukung Jenis instans yang didukung
Penamaan parameter di EC2 APIs interface efa efa-only
Penamaan bidang di EC2 konsol Tidak ada pilihan EFAdengan ENA EFA-hanya

Antarmuka dan pustaka yang didukung

EFAsmendukung antarmuka dan pustaka berikut:

  • Buka MPI 4 dan yang lebih baru

    catatan

    Open MPI 4.0 atau yang lebih baru lebih disukai untuk instance berbasis Graviton.

  • Pembaruan Intel MPI 2019 5 dan yang lebih baru

  • NVIDIACollective Communications Library (NCCL) 2.4.2 dan yang lebih baru

  • AWS Neuron SDK versi 2.3 dan yang lebih baru

Tipe instans yang didukung

Jenis instans berikut mendukung EFAs:

Nitro v5
  • Tujuan Umum: m8g.24xlarge | m8g.48xlarge | m8g.metal-24xl | m8g.metal-48xl

  • Komputasi Dioptimalkan: c7gn.16xlarge | c7gn.metal | c8g.24xlarge | c8g.48xlarge | c8g.metal-24xl | c8g.metal-48xl

  • Memori Dioptimalkan: r8g.24xlarge | r8g.48xlarge | r8g.metal-24xl | r8g.metal-48xl | x8g.24xlarge | x8g.48xlarge | x8g.metal-24xl | x8g.metal-48xl

  • Komputasi Kinerja Tinggi: hpc7g.4xlarge | hpc7g.8xlarge | hpc7g.16xlarge

Nitro v4
  • Tujuan Umum: m6a.48xlarge | m6a.metal | m6i.32xlarge | m6i.metal | m6id.32xlarge | m6id.metal | m6idn.32xlarge | m6idn.metal | m6in.32xlarge | m6in.metal | m7a.48xlarge | m7a.metal-48xl | m7g.16xlarge | m7g.logam | m7gd.16xlarge | m7gd.metal | m7i.48xlarge | m7i.metal-48xl

  • Komputasi Dioptimalkan: c6a.48xlarge | c6a.metal | c6gn.16xlarge | c6i.32xlarge | c6i.metal | c6id.32xlarge | c6id.metal | c6in.32xlarge | c6in.metal | c7a.48xlarge | c7a.metal-48xl | c7g.16xlarge | c7g.metal | c7g.metal gd.16xlarge | c7gd.metal | c7i.48xlarge | c7i.metal-48xl

  • Memori Dioptimalkan: r6a.48xlarge | r6a.metal | r6i.32xlarge | r6i.metal | r6idn.32xlarge | r6idn.metal | r6in.32xlarge | r6in.metal | r6id.32xlarge | r6id.metal | r7a.48xlarge | r7a.metal-48xl | r7g.16xlarge | r7g.logam | r7gd.16xlarge | r7gd.metal | r7i.48xlarge | r7i.metal-48xl | r7iz.32xlarge | r7iz.metal-32xl | u7i-12tb.224xlarge | u7in-16tb.224xlarge | u7in-24tb.224xlarge | u7in-32tb.224xbesar xlarge | x2idn.32xlarge | x2idn.metal | x2iedn.32xlarge | x2iedn.metal

  • Penyimpanan Dioptimalkan: i4g.16xlarge | i4i.32xlarge | i4i.metal | im4gn.16xlarge

  • Komputasi Dipercepat: g6.8xlarge | g6.12xlarge | g6.16xlarge | g6.24xlarge | g6.48xlarge | g6e.8xlarge | g6e.12xlarge | g6e.16xlarge | g6e.24xlarge | g6e.48xlarge | gr6.8xlarge | p5.48xlarge | p5e.48xlarge | trn1.32xlarge | trn1n.32xlarge

  • Komputasi Kinerja Tinggi: hpc6a.48xlarge | hpc6id.32xlarge | hpc7a.12xlarge | hpc7a.24xlarge | hpc7a.48xlarge | hpc7a.96xlarge

Nitro v3
  • Tujuan Umum: m5dn.24xlarge | m5dn.metal | m5n.24xlarge | m5dn.24xlarge | m5n.24xlarge | m5n.24xlarge | m5n.24xlarge | m5n.24xlarge | m5n.24xlarge | m5n.24xlarge | m5n.24xlarge | m5n.24xlarge

  • Komputasi Dioptimalkan: c5n.9xlarge | c5n.18xlarge | c5n.metal

  • Memori Dioptimalkan: r5dn.24xlarge | r5dn.metal | r5n.24xlarge | r5n.metal | x2iezn.12xlarge | x2iezn.metal

  • Penyimpanan Dioptimalkan: i3en.12xlarge | i3en.metal

  • Komputasi yang Dipercepat: dl1.24xlarge | dl2q.24xlarge | g4dn.8xlarge | g4dn.16xlarge | g4dn.metal | g5.8xlarge | g5.12xlarge | g5.16xlarge | g5.16xlarge | g5.24xlarge | g5.48xlarge | inf1.24xlarge | p3dn.24xlarge | p4d.24xlarge | p4de.24xlarge | vt1.24xlarge

Untuk melihat jenis instans yang tersedia yang mendukung EFAs di Wilayah tertentu

Tipe instans yang tersedia berbeda-beda menurut Wilayah. Untuk melihat jenis instance yang tersedia yang mendukung EFAs di Region, gunakan describe-instance-typesperintah dengan --region parameter. Sertakan --filters parameter untuk cakupan hasil ke jenis instance yang mendukung EFA dan --query parameter untuk cakupan output ke nilaiInstanceType.

aws ec2 describe-instance-types --region us-east-1 --filters Name=network-info.efa-supported,Values=true --query "InstanceTypes[*].[InstanceType]" --output text | sort

Sistem operasi yang didukung

Dukungan sistem operasi berbeda tergantung pada jenis prosesor. Tabel berikut ini menunjukkan sistem operasi yang didukung.

Sistem operasi Intel/ AMD (x86_64) jenis contoh AWS Graviton (arm64) jenis contoh
Amazon Linux 2023
Amazon Linux 2
RHEL8 dan 9
Debian 10, 11, dan 12
Rocky Linux 8 dan 9
Ubuntu 20.04, 22.04
SUSELinux Enterprise 15 SP2 dan yang lebih baru
Buka SUSE Leap 15.5 dan yang lebih baru
catatan

Ubuntu 20.04 mendukung dukungan peer direct saat digunakan dengan dl1.24xlarge instans.

EFAketerbatasan

EFAsmemiliki batasan berikut:

catatan

EFAlalu lintas mengacu pada lalu lintas yang ditransmisikan melalui EFA perangkat antarmuka EFA (EFAdenganENA) atau EFA -only.

  • EFAlalu lintas antara instance P4D/P4DE/ dan jenis DL1 instans lainnya saat ini tidak didukung.

  • Jenis instans yang mendukung beberapa kartu jaringan dapat dikonfigurasi dengan satu EFA per kartu jaringan. Semua tipe instans yang didukung hanya mendukung satu EFA instans.

  • Untukc7g.16xlarge, m7g.16xlarge dan Instans r7g.16xlarge Khusus dan Host Khusus tidak didukung saat EFA dilampirkan.

  • EFAlalu lintas tidak dapat melintasi Availability Zone atauVPCs. Ini tidak berlaku untuk lalu lintas IP normal dari ENA perangkat EFA antarmuka.

  • EFALalu lintas tidak dapat dirutekan. Lalu lintas IP normal dari ENA perangkat EFA antarmuka tetap dapat dirutekan.

  • EFAtidak didukung di AWS Outposts.

  • EFAPerangkat antarmuka EFA (EFAdenganENA) didukung pada instance Windows hanya untuk aplikasi berbasis AWS Cloud Digital Interface Software Development Kit (AWS CDI SDK). Jika Anda melampirkan antarmuka EFA (EFAdenganENA) ke instance Windows untuk aplikasi CDI SDK non-berbasis, itu berfungsi sebagai ENA antarmuka, tanpa kemampuan EFA perangkat tambahan. Antarmuka EFA -only tidak didukung oleh aplikasi AWS CDI berbasis pada Windows atau Linux. Untuk informasi selengkapnya, lihat Panduan Pengguna Kit Pengembangan AWS Cloud Digital Interface Perangkat Lunak (AWS CDI SDK).

EFAHarga

EFAtersedia sebagai fitur EC2 jaringan Amazon opsional yang dapat Anda aktifkan pada instans apa pun yang didukung tanpa biaya tambahan.