Meluncurkan AWS Deep Learning AMIs Instance Dengan EFA - AWS Deep Learning AMIs

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Meluncurkan AWS Deep Learning AMIs Instance Dengan EFA

Base terbaru DLAMI siap digunakan dengan EFA dan dilengkapi dengan driver yang diperlukan, modul kernel, libfabric, openmpi dan NCCLOFIplugin untuk instance. GPU

Anda dapat menemukan CUDA versi Base yang didukung DLAMI di catatan rilis.

Catatan:

  • Saat menjalankan NCCL Aplikasi menggunakan mpirun onEFA, Anda harus menentukan jalur lengkap ke instalasi yang EFA didukung sebagai:

    /opt/amazon/openmpi/bin/mpirun <command>
  • Untuk mengaktifkan aplikasi Anda untuk digunakanEFA, tambahkan FI_PROVIDER="efa" ke mpirun perintah seperti yang ditunjukkan padaMenggunakan EFA pada DLAMI.

Siapkan Grup Keamanan yang EFA Diaktifkan

EFAmembutuhkan grup keamanan yang memungkinkan semua lalu lintas masuk dan keluar ke dan dari grup keamanan itu sendiri. Untuk informasi selengkapnya, lihat EFADokumentasi.

  1. Buka EC2 konsol Amazon di https://console.aws.amazon.com/ec2/.

  2. Di panel navigasi, pilih Grup Keamanan lalu pilih Buat Grup Keamanan.

  3. Di jendela Buat Grup Keamanan, lakukan hal berikut:

    • Untuk Nama grup keamanan, masukkan nama deskriptif untuk grup keamanan, seperti EFA-enabled security group.

    • (Opsional) Untuk Deskripsi, masukkan deskripsi singkat grup keamanan.

    • Untuk VPC, pilih VPC ke mana Anda ingin meluncurkan instance EFA -enabled Anda.

    • Pilih Buat.

  4. Pilih grup keamanan yang Anda buat, dan pada tab Deskripsi, salin ID Grup.

  5. Pada tab Inbound dan Outbound, lakukan hal berikut:

    • Pilih Edit.

    • Untuk Jenis, pilih Semua lalu lintas.

    • Untuk Sumber, pilih Kustom.

    • Rekatkan ID grup keamanan yang Anda salin ke bidang.

    • Pilih Simpan.

  6. Aktifkan lalu lintas masuk yang mengacu pada Otorisasi Lalu Lintas Masuk untuk Instans Linux Anda. Jika Anda melewati langkah ini, Anda tidak akan dapat berkomunikasi dengan DLAMI instans Anda.

Luncurkan Instance Anda

EFAon saat AWS Deep Learning AMIs ini didukung dengan jenis instance dan sistem operasi berikut:

  • P3DN.24xbesar: Amazon Linux 2, Ubuntu 20.04

  • P4D.24xbesar: Amazon Linux 2, Ubuntu 20.04

  • P5.48xBesar: Amazon Linux 2, Ubuntu 20.04

Bagian berikut menunjukkan cara meluncurkan DLAMI instance yang EFA diaktifkan. Untuk informasi selengkapnya tentang meluncurkan instance yang EFA diaktifkan, lihat Meluncurkan Instans EFA yang Diaktifkan ke dalam Grup Penempatan Cluster.

  1. Buka EC2 konsol Amazon di https://console.aws.amazon.com/ec2/.

  2. Pilih Luncurkan Instans.

  3. Pada Pilih AMI halaman, pilih yang didukung yang DLAMI ditemukan di Halaman Catatan DLAMI Rilis

  4. Pada halaman Pilih Jenis Instance, pilih salah satu jenis instans yang didukung berikut, lalu pilih Berikutnya: Konfigurasi Detail Instance. Lihat tautan ini untuk daftar instance yang didukung: Memulai EFA dan MPI

  5. Pada halaman Konfigurasi Detail Instans, lakukan langkah berikut:

    • Untuk Jumlah instans, masukkan jumlah instans EFA -enabled yang ingin Anda luncurkan.

    • Untuk Network dan Subnet, pilih subnet VPC dan untuk meluncurkan instance.

    • [Opsional] Untuk grup Penempatan, pilih Tambahkan instance ke grup penempatan. Untuk performa terbaik, luncurkan instance dalam grup penempatan.

    • [Opsional] Untuk nama grup Penempatan, pilih Tambahkan ke grup penempatan baru, masukkan nama deskriptif untuk grup penempatan, lalu untuk strategi grup Penempatan, pilih klaster.

    • Pastikan untuk mengaktifkan “Adaptor Kain Elastis” di halaman ini. Jika opsi ini dinonaktifkan, ubah subnet menjadi subnet yang mendukung jenis instans yang Anda pilih.

    • Di bagian Antarmuka Jaringan, untuk perangkat eth0, pilih Antarmuka jaringan baru. Anda dapat secara opsional menentukan IPv4 alamat utama dan satu atau lebih IPv4 alamat sekunder. Jika Anda meluncurkan instance ke subnet yang memiliki IPv6 CIDR blok terkait, Anda dapat secara opsional menentukan IPv6 alamat utama dan satu atau beberapa alamat sekunderIPv6.

    • Pilih Berikutnya: Tambahkan Penyimpanan.

  6. Pada halaman Tambahkan Penyimpanan, tentukan volume yang akan dilampirkan ke instance selain volume yang ditentukan oleh AMI (seperti volume perangkat root), lalu pilih Berikutnya: Tambahkan Tag.

  7. Di halaman Tambahkan Tanda, tentukan tanda untuk instans, seperti nama yang mudah digunakan, lalu pilih Selanjutnya: Konfigurasikan Grup Keamanan.

  8. Pada halaman Konfigurasi Grup Keamanan, untuk Menetapkan grup keamanan, pilih Pilih grup keamanan yang ada, lalu pilih grup keamanan yang Anda buat sebelumnya.

  9. Pilih Tinjau dan Luncurkan.

  10. Di halaman Tinjau Peluncuran Instans, tinjau pengaturannya, lalu pilih Luncurkan untuk memilih pasangan kunci dan meluncurkan instans Anda.

Verifikasi EFA Lampiran

Dari Konsol

Setelah meluncurkan instance, periksa detail instance di AWS Console. Untuk melakukan ini, pilih instance di EC2 konsol dan lihat Tab Deskripsi di panel bawah pada halaman. Temukan parameter 'Network Interfaces: eth0' dan klik eth0 yang membuka pop-up. Pastikan 'Adaptor Kain Elastis' diaktifkan.

Jika tidak EFA diaktifkan, Anda dapat memperbaikinya dengan:

  • Mengakhiri EC2 instance dan meluncurkan yang baru dengan langkah yang sama. Pastikan EFA terpasang.

  • Lampirkan EFA ke instance yang ada.

    1. Di EC2 konsol, buka Network Interfaces.

    2. Klik Buat Antarmuka Jaringan.

    3. Pilih subnet yang sama dengan instans Anda.

    4. Pastikan untuk mengaktifkan 'Adaptor Kain Elastis' dan klik Buat.

    5. Kembali ke Tab EC2 Instances dan pilih instance Anda.

    6. Buka Actions: Instance State dan hentikan instance sebelum Anda melampirkanEFA.

    7. Dari Tindakan, pilih Jaringan: Lampirkan Antarmuka Jaringan.

    8. Pilih antarmuka yang baru saja Anda buat dan klik lampirkan.

    9. Mulai ulang instans Anda.

Dari Instance

Skrip pengujian berikut sudah ada di fileDLAMI. Jalankan untuk memastikan bahwa modul kernel dimuat dengan benar.

$ fi_info -p efa

Output-nya semestinya mirip dengan yang berikut.

provider: efa fabric: EFA-fe80::e5:56ff:fe34:56a8 domain: efa_0-rdm version: 2.0 type: FI_EP_RDM protocol: FI_PROTO_EFA provider: efa fabric: EFA-fe80::e5:56ff:fe34:56a8 domain: efa_0-dgrm version: 2.0 type: FI_EP_DGRAM protocol: FI_PROTO_EFA provider: efa;ofi_rxd fabric: EFA-fe80::e5:56ff:fe34:56a8 domain: efa_0-dgrm version: 1.0 type: FI_EP_RDM protocol: FI_PROTO_RXD

Verifikasi Konfigurasi Grup Keamanan

Skrip pengujian berikut sudah ada di fileDLAMI. Jalankan untuk memastikan bahwa grup keamanan yang Anda buat dikonfigurasi dengan benar.

$ cd /opt/amazon/efa/test/ $ ./efa_test.sh

Output-nya semestinya mirip dengan yang berikut.

Starting server... Starting client... bytes #sent #ack total time MB/sec usec/xfer Mxfers/sec 64 10 =10 1.2k 0.02s 0.06 1123.55 0.00 256 10 =10 5k 0.00s 17.66 14.50 0.07 1k 10 =10 20k 0.00s 67.81 15.10 0.07 4k 10 =10 80k 0.00s 237.45 17.25 0.06 64k 10 =10 1.2m 0.00s 921.10 71.15 0.01 1m 10 =10 20m 0.01s 2122.41 494.05 0.00

Jika berhenti merespons atau tidak selesai, pastikan bahwa grup keamanan Anda memiliki aturan masuk/keluar yang benar.