Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erste Schritte mit EFA und NCCL für ML-Workloads auf Amazon EC2
Die NVIDIA Collective Communications Library (NCCL) ist eine Bibliothek kollektiver Standardkommunikationsroutinen für mehrere GPUs über einen oder mehrere Knoten. Die NCCL kann zusammen mit EFA, libfabric und MPI verwendet werden, um verschiedene Machine-Learning-Workloads zu unterstützen. Weitere Informationen finden Sie auf der NCCL
Voraussetzungen
-
Nur Instance-Typen der P-Serie mit beschleunigter Datenverarbeitung werden unterstützt. Weitere Informationen finden Sie unter Beschleunigte Computing-Instances von Amazon EC2.
-
Es werden nur Basis-AMIs von Amazon Linux 2023, Amazon Linux 2, Ubuntu 24.04 und Ubuntu 22.04 unterstützt.
-
Die NCCL wird erst ab Version 2.4.2 mit EFA unterstützt.
Weitere Informationen zum Ausführen von Machine-Learning-Workloads mit EFA und NCCL unter Verwendung von finden Sie unter AWS Deep Learning AMIs Using EFA on the DLAMI im Developer Guide.AWS Deep Learning AMIs
Schritte
Schritt 1: Bereiten Sie eine Sicherheitsgruppe vor EFA-enabled
Ein EFA erfordert eine Sicherheitsgruppe, die allen ein- und ausgehenden Datenverkehr von und zur Sicherheitsgruppe zulässt. Mit dem folgenden Verfahren wird eine Sicherheitsgruppe erstellt, die den gesamten ein- und ausgehenden Datenverkehr der Gruppe sowie eingehenden SSH-Datenverkehr von jeder IPv4-Adresse zwecks SSH-Konnektivität zulässt.
Wichtig
Diese Sicherheitsgruppe dient nur zu Testzwecken. Für Produktionsumgebungen sollten Sie eine Regel für eingehenden SSH-Datenverkehr erstellen, die Datenverkehr nur von der IP-Adresse zulässt, von der aus Sie eine Verbindung herstellen, z. B. die IP-Adresse Ihres Computers oder einen Bereich von IP-Adressen im lokalen Netzwerk.
Weitere Szenarien finden Sie unter Sicherheitsgruppenregeln für verschiedene Anwendungsfälle.
Um eine EFA-enabled Sicherheitsgruppe zu erstellen
Öffnen Sie die Amazon-EC2-Konsole unter https://console.aws.amazon.com/ec2/
. -
Wählen Sie im Navigationsbereich Security Groups (Sicherheitsgruppen) und anschließend Create Security Group (Sicherheitsgruppe erstellen) aus.
-
Führen Sie im Fenster Create Security Group Folgendes aus:
-
Geben Sie für Security group name (Name der Sicherheitsgruppe) einen beschreibenden Namen für die Sicherheitsgruppe ein, wie etwa
EFA-enabled security group. -
(Optional:) Geben Sie unter Description (Beschreibung) eine kurze Beschreibung der Sicherheitsgruppe ein.
-
Wählen Sie für VPC die VPC aus, in der Sie Ihre EFA-enabled Instances starten möchten.
-
Wählen Sie Sicherheitsgruppe erstellen aus.
-
-
Wählen Sie die von Ihnen erstellte Sicherheitsgruppe aus und kopieren Sie dann auf der Registerkarte Details die Security group ID (Sicherheitsgruppen-ID).
-
Bei noch ausgewählter Sicherheitsgruppe wählen Sie Actions (Aktionen), Edit inbound rules (Eingangsregeln bearbeiten) aus und gehen dann folgendermaßen vor:
-
Wählen Sie Regel hinzufügen aus.
-
Wählen Sie für Type (Typ) die Option All traffic (Gesamter Datenverkehr) aus.
-
Wählen Sie bei Source type (Quellentyp) Custom (Benutzerdefiniert) aus und fügen Sie die Sicherheitsgruppen-ID, die Sie kopiert hatten, ins Feld ein.
-
Wählen Sie Regel hinzufügen aus.
-
Wählen Sie unter Typ die Option SSH aus.
-
Wählen Sie im Feld Source type (Quelltyp) die Option Anywhere-IPv4 aus.
-
Wählen Sie Regeln speichern aus.
-
-
Bei noch ausgewählter Sicherheitsgruppe wählen Sie Actions (Aktionen), Edit outbound rules (Ausgangsregeln bearbeiten) aus und gehen dann folgendermaßen vor:
-
Wählen Sie Regel hinzufügen aus.
-
Wählen Sie für Type (Typ) die Option All traffic (Gesamter Datenverkehr) aus.
-
Wählen Sie bei Destination type (Zieltyp) Custom (Benutzerdefiniert) aus und fügen Sie die Sicherheitsgruppen-ID, die Sie kopiert hatten, ins Feld ein.
-
Wählen Sie Regeln speichern aus.
-
Schritt 2: Starten einer temporären Instance
Starten Sie eine temporäre Instance, die Sie verwenden können, um die EFA-Softwarekomponenten zu installieren und zu konfigurieren. Sie verwenden diese Instance, um ein EFA-enabled AMI zu erstellen, von dem aus Sie Ihre EFA-enabled Instances starten können.
So starten Sie eine temporäre Instance
Öffnen Sie die Amazon-EC2-Konsole unter https://console.aws.amazon.com/ec2/
. -
Wählen Sie im Navigationsbereich Instances und dann Instances starten aus, um den Launch Instance Wizard zu öffnen.
-
(Optional) Geben Sie im Bereich Name and tags (Name und Tags) einen Namen für die Instance an, z. B.
EFA-instance. Der Name wird der Instance als Ressourcen-Tag (Name=) zugewiesen.EFA-instance -
Wählen Sie im Bereich Anwendungs- und Betriebssystem-Images ein AMI für eines der unterstützten Betriebssysteme aus.
-
Wählen Sie im Bereich Instance-Typ einen unterstützten Instance-Typ aus.
-
Wählen Sie im Bereich Key pair (Schlüsselpaar) das Schlüsselpaar aus, das für die Instance verwendet werden soll.
-
Wählen Sie im Bereich Network settings (Netzwerkeinstellungen) Edit (Bearbeiten) aus und führen Sie dann Folgendes aus:
-
Wählen Sie unter Subnetz das Subnetz aus, in dem die Instance gestartet werden soll.
Wichtig
Sie müssen ein Subnetz auswählen. Wenn Sie kein Subnetz auswählen, können Sie die Instance nicht für EFA aktivieren.
-
Wählen Sie bei Firewall (security groups) Firewall (Sicherheitsgruppen) Select existing security group (Vorhandene Sicherheitsgruppe auswählen) und dann die Sicherheitsgruppe aus, die Sie im vorherigen Schritt erstellt haben.
-
Erweitern Sie den Abschnitt Erweiterte Netzwerkkonfiguration.
Wählen Sie für Netzwerkschnittstelle 1 Netzwerkkartenindex = 0, Geräteindex = 0 und Schnittstellentyp = EFA mit ENA aus.
(Optional) Wenn Sie einen Instance-Typ mit mehreren Karten verwenden, wie z. B.
p4d.24xlargeoderp5.48xlarge, wählen Sie für jede weitere erforderliche Netzwerkschnittstelle die Option Netzwerkschnittstelle hinzufügen, wählen Sie für Netzwerkkartenindex den nächsten ungenutzten Index aus und wählen Sie dann Geräteindex = 1 und Schnittstellentyp = EFA mit ENA oder. EFA-only
-
-
Konfigurieren Sie im Bereich Storage (Speicher) die Volumes nach Bedarf.
Anmerkung
Sie müssen zusätzliche 10 bis 20 GiB Speicher für das Nvidia CUDA Toolkit bereitstellen. Wenn Sie nicht genügend Speicherplatz bereitstellen, erhalten Sie einen
insufficient disk space-Fehler beim Versuch, die Nvidia-Treiber und das CUDA-Toolkit zu installieren. -
Wählen Sie im Bereich Summary (Zusammenfassung) rechts Launch instance (Instance starten) aus.
Schritt 3: Installieren der Nvidia-GPU-Treiber, des Nvidia-CUDA-Toolkits und cuDNN
Schritt 4: Installieren der GDRCopy
Installieren Sie GDRCopy, um die Leistung von Libfabric zu verbessern. Weitere Informationen zu GDRCopy finden Sie im GDRCopy-Repository
Schritt 5: Installieren der EFA-Software
Installieren Sie den EFA-enabled Kernel, die EFA-Treiber, Libfabric, das aws-ofi-nccl-Plugin und den Open MPI-Stack, die für die Unterstützung von EFA auf Ihrer Instance erforderlich sind.
So installieren Sie die EFA-Software
-
Stellen Sie eine Verbindung zu der Instance her, die Sie gestartet haben. Weitere Informationen finden Sie unter Herstellen einer Verbindung zu Ihrer Linux-Instance mit SSH.
-
Laden Sie die EFA-Software-Installationsdateien herunter. Die Software-Installationsdateien sind in einer komprimierten Tarball-Datei (
.tar.gz) verpackt. Laden Sie die neueste stabile Version mit dem folgenden Befehl herunter.Sie erhalten die neueste Version auch, indem Sie anstelle der Versionsnummer im vorangegangenen Befehl
latesteingeben.$curl -O https://efa-installer.amazonaws.com/aws-efa-installer-1.48.0.tar.gz (Optional) Überprüfen Sie die Authentizität und Integrität der EFA-Tarball-Datei (
.tar.gz).Diese Vorgehensweise wird empfohlen, um die Identität des Software-Publishers zu überprüfen und sicherzustellen, dass die Datei seit ihrer Veröffentlichung nicht verändert oder beschädigt wurde. Wenn Sie die Tarball-Datei nicht überprüfen möchten, überspringen Sie diesen Schritt.
Anmerkung
Wenn Sie die Tarball-Datei lieber mit einer MD5- oder SHA256-Prüfsumme überprüfen möchten, finden Sie Informationen unter Überprüfen des EFA-Installationsprogramms mithilfe einer Prüfsumme.
-
Laden Sie den öffentlichen GPG-Schlüssel herunter und importieren Sie ihn in Ihren Schlüsselbund.
$wget https://efa-installer.amazonaws.com/aws-efa-installer.key && gpg --import aws-efa-installer.keyDer Befehl sollte einen Schlüsselwert zurückgeben. Notieren Sie sich den Schlüsselwert. Sie benötigen ihn im nächsten Schritt.
-
Überprüfen Sie den Fingerabdruck des GPG-Schlüssels. Führen Sie den folgenden Befehl aus und geben den Schlüsselwert aus dem vorherigen Schritt an.
$gpg --fingerprintkey_valueDer Befehl sollte einen Fingerabdruck zurückgeben, der mit
4E90 91BC BB97 A96B 26B1 5E59 A054 80B1 DD2D 3CCCidentisch ist. Wenn der Fingerabdruck nicht übereinstimmt, führen Sie das EFA-Installationsskript nicht aus und wenden Sie sich an den Support. -
Laden Sie die Signaturdatei herunter und überprüfen Sie die Signatur der EFA-Tarball-Datei.
$wget https://efa-installer.amazonaws.com/aws-efa-installer-1.48.0.tar.gz.sig && gpg --verify ./aws-efa-installer-1.48.0.tar.gz.sigDas folgende Beispiel zeigt eine Ausgabe.
gpg: Signature made Wed 29 Jul 2020 12:50:13 AM UTC using RSA key ID DD2D3CCC gpg: Good signature from "Amazon EC2 EFA <ec2-efa-maintainers@amazon.com>" gpg: WARNING: This key is not certified with a trusted signature! gpg: There is no indication that the signature belongs to the owner. Primary key fingerprint: 4E90 91BC BB97 A96B 26B1 5E59 A054 80B1 DD2D 3CCCWenn das Ergebnis
Good signatureenthält und der Fingerabdruck mit dem Fingerabdruck übereinstimmt, der im vorherigen Schritt zurückgegeben wurde, fahren Sie mit dem nächsten Schritt fort. Wenn nicht, führen Sie das EFA-Installationsskript nicht aus und wenden Sie sich an den Support.
-
-
Extrahieren Sie die Daten aus der komprimierten
.tar.gz-Datei und wechseln Sie in das extrahierte Verzeichnis.$tar -xf aws-efa-installer-1.48.0.tar.gz && cd aws-efa-installer (Optional) Überprüfen Sie die einzelnen Paketsignaturen während der Installation.
Ab dem EFA-Installationsprogramm 1.48.0 umfasst das Installationsprogramm GPG-signed einzelne RPM- und DEB-Pakete. Verwenden Sie das Flag, um die Authentizität und Integrität jedes einzelnen Pakets während der Installation zu überprüfen.
--check-signaturesWenn Sie dieses Flag aktivieren, überprüft das Installationsprogramm zuerst alle Paketsignaturen und setzt die Installation nur fort, wenn jedes Paket die Überprüfung bestanden hat. Wenn die Überprüfung eines Pakets fehlschlägt, wird das Installationsprogramm sofort beendet, ohne dass etwas installiert wird.-
Laden Sie den öffentlichen GPG-Schlüssel herunter.
$wget https://efa-installer.amazonaws.com/aws-efa-installer.key -
Exportieren Sie den Schlüsselpfad. Fügen Sie dann im nächsten Schritt den Installationsbefehl
--check-signatureshinzu und verwenden Siesudo -Estatt dessen,sudoum die Umgebungsvariable beizubehalten.$export EFA_INSTALLER_KEY=$(pwd)/aws-efa-installer.key
Auf RPM-based Systemen (Amazon Linux, RHEL, Rocky Linux und SUSE) verifiziert das Installationsprogramm jedes RPM mithilfe von.
rpm --checksigAuf DEB-based Systemen (Ubuntu, Debian) verifiziert das Installationsprogramm jedes DEB mithilfe der GPG-Signaturüberprüfung.Wenn die Überprüfung eines Pakets fehlschlägt, wird die Installation sofort abgebrochen, wodurch Ihr System vor kaputten oder bösartigen Paketen geschützt wird.
Anmerkung
Die
--check-signaturesMarkierung ist optional. Ohne sie führt das Installationsprogramm keine individuelle Signaturüberprüfung durch.-
-
Führen Sie das EFA-Software-Installationsskript aus.
Anmerkung
Wenn Sie den vorherigen optionalen Schritt zur Einrichtung der Paketsignaturüberprüfung abgeschlossen haben, fügen Sie ihn
--check-signaturesan den Installationsbefehl an und verwenden Siesudo -Estattdessen.sudoBeispiel:sudo -E ./efa_installer.sh -y --mpi=openmpi4 --check-signatures.Anmerkung
Ab EFA 1.30.0 sind sowohl Open MPI 4.1 als auch Open MPI 5 standardmäßig installiert. Sofern Sie Open MPI 5 nicht benötigen, empfehlen wir, nur Open MPI 4.1 zu installieren. Mit dem folgenden Befehl wird nur Open MPI 4.1 installiert. Wenn Sie Open MPI 4.1 und Open MPI 5 installieren möchten, entfernen Sie es.
--mpi=openmpi4$sudo ./efa_installer.sh -y --mpi=openmpi4Libfabric ist im
/opt/amazon/efa-Verzeichnis installiert. Das Plug-In aws-ofi-nccl ist im/opt/amazon/ofi-nccl-Verzeichnis installiert. Open MPI ist im/opt/amazon/openmpi-Verzeichnis installiert. -
Wenn das EFA-Installationsprogramm Sie auffordert, die Instance neu zu starten, tun Sie dies und stellen Sie dann erneut eine Verbindung mit der Instance her. Melden Sie sich andernfalls von der Instance ab und wieder an, um die Installation abzuschließen.
-
Überprüfen Sie, ob die EFA-Softwarekomponenten erfolgreich installiert wurden.
$fi_info -p efa -t FI_EP_RDMDer Befehl muss Informationen zu den Libfabric-EFA-Schnittstellen zurückgeben. Das folgende Beispiel zeigt die Befehlsausgabe.
-
p3dn.24xlargemit einer einzigen Netzwerkschnittstelleprovider: efa fabric: EFA-fe80::94:3dff:fe89:1b70 domain: efa_0-rdm version: 2.0 type: FI_EP_RDM protocol: FI_PROTO_EFA -
p4d.24xlargeundp5.48xlargemit mehreren Netzwerkschnittstellenprovider: efa fabric: EFA-fe80::c6e:8fff:fef6:e7ff domain: efa_0-rdm version: 111.0 type: FI_EP_RDM protocol: FI_PROTO_EFA provider: efa fabric: EFA-fe80::c34:3eff:feb2:3c35 domain: efa_1-rdm version: 111.0 type: FI_EP_RDM protocol: FI_PROTO_EFA provider: efa fabric: EFA-fe80::c0f:7bff:fe68:a775 domain: efa_2-rdm version: 111.0 type: FI_EP_RDM protocol: FI_PROTO_EFA provider: efa fabric: EFA-fe80::ca7:b0ff:fea6:5e99 domain: efa_3-rdm version: 111.0 type: FI_EP_RDM protocol: FI_PROTO_EFA
-
Schritt 6: Installieren der NCCL
Installieren Sie die NCCL Weitere Informationen zur NCCL finden Sie im NCCL-Repository
So installieren Sie die NCCL
-
Navigieren Sie zum Verzeichnis
/opt.$cd /opt -
Klonen Sie das offizielle NCCL-Repository in die Instance und navigieren Sie zum lokal geklonten Repository.
$sudo git clone https://github.com/NVIDIA/nccl.git -b v2.23.4-1 && cd nccl -
Erstellen und installieren Sie die NCCL und geben Sie das CUDA-Installationsverzeichnis an.
$sudo make -j src.build CUDA_HOME=/usr/local/cuda
Schritt 7: Installieren der NCCL-Tests
Installieren Sie die NCCL-Tests. Mit den NCCL-Tests können Sie bestätigen, dass die NCCL richtig installiert wurde und wie erwartet funktioniert. Weitere Informationen zu den NCCL-Tests finden Sie unter nccl-tests repository
So installieren Sie die NCCL-Tests
-
Navigieren Sie zum Stammverzeichnis.
$cd $HOME -
Klonen Sie das offizielle nccl-tests-Repository in die Instance und navigieren Sie zum lokal geklonten Repository.
$git clone https://github.com/NVIDIA/nccl-tests.git && cd nccl-tests -
Fügen Sie das libfabric-Verzeichnis in die Variable
LD_LIBRARY_PATHein.-
Amazon Linux 2023 und Amazon Linux 2
$export LD_LIBRARY_PATH=/opt/amazon/efa/lib64:$LD_LIBRARY_PATH -
Ubuntu 24.04 und Ubuntu 22.04
$export LD_LIBRARY_PATH=/opt/amazon/efa/lib:$LD_LIBRARY_PATH
-
-
Installieren Sie die NCCL-Tests und geben Sie die Installationsverzeichnisse für MPI, NCCL und CUDA an.
$make MPI=1 MPI_HOME=/opt/amazon/openmpiNCCL_HOME=/opt/nccl/buildCUDA_HOME=/usr/local/cuda
Schritt 8: Testen der EFA- und NCCL-Konfiguration
Führen Sie einen Test durch, um sicherzustellen, dass Ihre temporäre Instance richtig für EFA und NCCL konfiguriert ist.
So testen Sie EFA- und NCCL-Konfiguration
-
Erstellen Sie eine Host-Datei, die die Hosts angibt, auf denen die Tests ausgeführt werden sollen. Der folgende Befehl erstellt eine Host-Datei namens
my-hosts, die eine Referenz auf die Instance selbst enthält. -
Führen Sie den Test aus und geben Sie die Host-Datei (
--hostfile) und die Anzahl zu verwendender GPUs (-n) an. Der folgende Befehl führt den Testall_reduce_perfauf 8 GPUs in der Instance selbst aus und gibt die folgenden Umgebungsvariablen an.-
FI_EFA_USE_DEVICE_RDMA=1– (nurp4d.24xlarge) verwendet die RDMA-Funktion des Geräts für einseitige und zweiseitige Übertragungen. -
NCCL_DEBUG=INFO: ermöglicht eine detaillierte Debugging-Ausgabe. Sie können auchVERSIONangeben, damit nur die NCCL-Version am Anfang des Tests ausgegeben wird oderWARN, damit nur Fehlermeldungen ausgegeben werden.
Weitere Informationen zu den Argumenten für NCCL-Tests finden Sie unter NCCL Tests README
im offiziellen nccl-tests-Repository. -
p3dn.24xlarge$/opt/amazon/openmpi/bin/mpirun \ -x LD_LIBRARY_PATH=/opt/nccl/build/lib:/usr/local/cuda/lib64:/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/amazon/ofi-nccl/lib:$LD_LIBRARY_PATH \ -x NCCL_DEBUG=INFO \ --hostfile my-hosts -n 8 -N 8 \ --mca pml ^cm --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \ $HOME/nccl-tests/build/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100 -
p4d.24xlargeundp5.48xlarge$/opt/amazon/openmpi/bin/mpirun \ -x FI_EFA_USE_DEVICE_RDMA=1 \ -x LD_LIBRARY_PATH=/opt/nccl/build/lib:/usr/local/cuda/lib64:/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/amazon/ofi-nccl/lib:$LD_LIBRARY_PATH \ -x NCCL_DEBUG=INFO \ --hostfile my-hosts -n 8 -N 8 \ --mca pml ^cm --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \ $HOME/nccl-tests/build/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100
-
-
Sie können bestätigen, dass EFA als zugrunde liegender Anbieter für NCCL aktiv ist, wenn das
NCCL_DEBUG-Protokoll gedruckt wird.ip-192-168-2-54:14:14 [0] NCCL INFO NET/OFI Selected Provider is efa*Die folgenden zusätzlichen Informationen werden angezeigt, wenn Sie eine
p4d.24xlarge-Instance verwenden.ip-192-168-2-54:14:14 [0] NCCL INFO NET/OFI Running on P4d platform, Setting NCCL_TOPO_FILE environment variable to /home/ec2-user/install/plugin/share/aws-ofi-nccl/xml/p4d-24xl-topo.xml
Schritt 9: Installieren der Machine-Learning-Anwendungen
Installieren Sie die Machine-Learning-Anwendungen auf der temporären Instance. Der Installationsvorgang variiert je nach Machine-Learning-Anwendung. Weitere Informationen zum Installieren von Software auf Ihrer Linux-Instance finden Sie unter Verwalten von Software auf einer Amazon-Linux-2-Instance.
Anmerkung
In der Dokumentation Ihrer Machine-Learning-Anwendung finden Sie Installationsanleitungen.
Schritt 10: EFA und NCCL-enabled AMI erstellen
Nachdem Sie die erforderlichen Softwarekomponenten installiert haben, erstellen Sie ein AMI, das Sie zum Starten Ihrer EFA-enabled Instances wiederverwenden können.
So erstellen Sie ein AMI aus Ihrer temporären Instance:
Öffnen Sie die Amazon-EC2-Konsole unter https://console.aws.amazon.com/ec2/
. -
Wählen Sie im Navigationsbereich Instances aus.
-
Wählen Sie die temporäre Instance aus, die Sie erstellt haben, und wählen Sie anschließend Actions (Aktionen), Image und Create Image (Image erstellen) aus.
-
Gehen Sie bei Create Image (Image erstellen) wie folgt vor:
-
Geben Sie unter Image name (Image-Name) einen beschreibenden Namen für das AMI ein.
-
(Optional:) Geben Sie bei Image description (Image-Beschreibung) eine kurze Beschreibung des Zwecks des AMI ein.
-
Wählen Sie Create Image (Image erstellen) aus.
-
-
Wählen Sie im Navigationsbereich die Option AMIs.
-
Suchen Sie das AMI, das Sie erstellt haben, in der Liste. Warten Sie, bis der Status von
pendingzuavailablewechselt, bevor Sie mit dem nächsten Schritt fortfahren.
Schritt 11: Beenden der temporären Instance
An diesem Punkt benötigen Sie die temporäre Instance, die Sie gestartet haben, nicht mehr. Sie können die Instance beenden, damit keine weiteren Kosten dafür anfallen.
So beenden Sie die temporäre Instance:
Öffnen Sie die Amazon-EC2-Konsole unter https://console.aws.amazon.com/ec2/
. -
Wählen Sie im Navigationsbereich Instances aus.
-
Wählen Sie die temporäre instance aus, die Sie erstellt haben, und wählen Sie anschließend Actions (Aktionen), Instance state (Instance-Zustand) und Terminate instance (Instance beenden) aus.
-
Wählen Sie Terminate (Kündigen) aus, wenn Sie zur Bestätigung aufgefordert werden.
Schritt 12: Starten Sie EFA und NCCL-enabled Instances in einer Cluster-Platzierungsgruppe
Starten Sie Ihre EFA und Ihre NCCL-enabled Instances mithilfe des EFA-enabled AMI und der EFA-enabled Sicherheitsgruppe, die Sie zuvor erstellt haben, in einer Cluster-Placement-Gruppe.
Anmerkung
-
Es ist nicht unbedingt erforderlich, Ihre EFA-enabled Instances in einer Cluster-Placement-Gruppe zu starten. Wir empfehlen jedoch, Ihre EFA-enabled Instances in einer Cluster-Platzierungsgruppe auszuführen, da dadurch die Instances in einer einzigen Availability Zone in einer einzigen Availability Zone in einer einzigen Availability Zone gestartet werden.
-
Um die Verfügbarkeit von Kapazitäten sicherzustellen, wenn Sie die Instances Ihres Clusters skalieren, können Sie eine Kapazitätsreservierung für Ihre Cluster-Placement-Gruppe erstellen. Weitere Informationen finden Sie unter Kapazitätsreservierungen mit Cluster-Placement-Gruppen verwenden.
Schritt 13: Aktivieren von passwortlosem SSH
Damit Ihre Anwendungen auf allen Instances in Ihrem Cluster ausgeführt werden können, müssen Sie passwortlosen SSH-Zugriff vom Führungsknoten auf die Mitgliedsknoten aktivieren. Der Führungsknoten ist die Instance, von der aus Sie die Anwendungen ausführen. Die verbleibenden Instances im Cluster sind die Mitgliedsknoten.
So aktivieren Sie passwortloses SSH zwischen den Instances im Cluster:
-
Wählen Sie eine Instance im Cluster als Führungsknoten aus und stellen Sie eine Verbindung zu ihr her.
-
Deaktivieren Sie
strictHostKeyCheckingund aktivieren SieForwardAgentfür den Führungsknoten. Öffnen Sie~/.ssh/configmit dem bevorzugten Texteditor und fügen Sie Folgendes hinzu.Host * ForwardAgent yes Host * StrictHostKeyChecking no -
Generieren Sie ein RSA-Schlüsselpaar.
$ssh-keygen -t rsa -N "" -f ~/.ssh/id_rsaDas Schlüsselpaar wird im
$HOME/.ssh/-Verzeichnis erstellt. -
Ändern Sie die Berechtigungen des privaten Schlüssels auf dem Führungsknoten.
$chmod 600 ~/.ssh/id_rsa chmod 600 ~/.ssh/config -
Öffnen Sie
~/.ssh/id_rsa.pubmit Ihrem bevorzugten Texteditor und kopieren Sie den Schlüssel. -
Gehen Sie für jeden Mitgliedsknoten im Cluster wie folgt vor:
-
Stellen Sie eine Verbindung mit der Instance her.
-
Öffnen Sie
~/.ssh/authorized_keysmit Ihrem bevorzugten Texteditor und fügen Sie den öffentlichen Schlüssel hinzu, den Sie zuvor kopiert haben.
-
-
Um zu testen, ob das passwortlose SSH wie erwartet funktioniert, stellen Sie eine Verbindung zum Leaderknoten her und führen Sie den folgenden Befehl aus.
$sshmember_node_private_ipSie sollten eine Verbindung zum Mitgliedsknoten herstellen können, ohne zur Eingabe eines Schlüssels oder Passworts aufgefordert zu werden.