Elastic Fabric Adapter für KI/ML- und HPC-Workloads auf Amazon EC2

Fokusmodus

Elastic Fabric Adapter für KI/ML- und HPC-Workloads auf Amazon EC2 - Amazon Elastic Compute Cloud

EFA-Grundlagen Unterstützte Schnittstellen und Bibliotheken Unterstützte Instance-Typen Unterstützte Betriebssysteme EFA-Einschränkungen EFA-Preisgestaltung

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ein Elastic Fabric Adapter (EFA) ist ein Netzwerkgerät, das Sie an Ihre EC2 Amazon-Instance anschließen können, um Anwendungen für künstliche Intelligenz (KI), Machine Learning (ML) und High Performance Computing (HPC) zu beschleunigen. Mit EFA können Sie die Anwendungsleistung eines On-Premises- KI/ML- oder HPC-Clusters erreichen – mit der Skalierbarkeit, Flexibilität und Elastizität der AWS Cloud.

EFA bietet eine geringere und konsistentere Latenz und höheren Durchsatz als der TCP-Transport, der normalerweise in Cloud-basierten HPC-Systemen verwendet wird. Es verbessert die Leistung der Kommunikation zwischen Instances, die für das Skalieren von HPC- und KI/ML-Anwendungen wichtig ist. Es ist für die Verwendung in der vorhandenen AWS Netzwerkinfrastruktur optimiert und kann je nach Anwendungsanforderungen skaliert werden.

EFA lässt sich in Libfabric 1.7.0 und höher integrieren und unterstützt die Nvidia Collective Communications Library (NCCL) für KI- und ML-Anwendungen sowie Open MPI 4.1 und höher sowie Intel MPI 2019 Update 5 und höher für HPC-Anwendungen.

EFA unterstützt RDMA-Schreibvorgänge (Remote Direct Memory Access) auf den meisten unterstützten Instance-Typen mit Nitro Version 4 und höher. RDMA-Lesen wird auf allen Instanzen mit Nitro Version 4 und höher unterstützt. Weitere Informationen finden Sie unter Unterstützte Instance-Typen.

Inhalt

EFA-Grundlagen

Ein EFA-Gerät kann auf zwei Arten an eine EC2 Instanz angehängt werden:

Verwendung einer herkömmlichen EFA-Schnittstelle, auch EFA genannt, mit ENA, die sowohl ein EFA-Gerät als auch ein ENA-Gerät erstellt.
Verwendung einer reinen EFA-Schnittstelle, bei der nur das EFA-Gerät erstellt wird.

Das EFA-Gerät bietet Funktionen wie eine integrierte Betriebssystemumgehung und die Überlastungskontrolle über das SRD-Protokoll (Scalable Reliable Datagram). Die EFA-Gerätefunktionen ermöglichen zuverlässige Transportfunktionen mit niedriger Latenz, sodass die EFA-Schnittstelle eine bessere Anwendungsleistung für HPC- und ML-Anwendungen auf Amazon bietet. EC2 Das ENA-Gerät bietet dagegen herkömmliche IP-Netzwerke.

Im Gegensatz zu einem herkömmlichen HPC-Software-Stack, der EFA verwendet.

Üblicherweise verwenden KI/ML- und HPC-Anwendungen die Message Passing Interface (MPI), um eine Schnittstelle zum Netzwerktransport des Systems herzustellen. In der AWS Cloud bedeutete dies, dass Anwendungen mit NCCL oder MPI verbunden sind, die dann den TCP/IP-Stack des Betriebssystems und den ENA-Gerätetreiber verwenden, um die Netzwerkkommunikation zwischen den Instanzen zu ermöglichen.

Mit einer herkömmlichen EFA- (EFA mit ENA) oder einer reinen EFA-Schnittstelle und HPC-Anwendungen für eine effizientere Ausführung. AI/ML applications use NCCL and HPC applications use MPI, to interface directly with the Libfabric API. The Libfabric API bypasses the operating system kernel and communicates directly with the EFA device to put packets on the network. This reduces overhead and enables AI/ML

Anmerkung

Libfabric ist eine Kernkomponente des OpenFabrics Interfaces (OFI) -Frameworks, das die Userspace-API von OFI definiert und exportiert. Weitere Informationen finden Sie auf der Libfabric-Website. OpenFabrics

Unterschiede zwischen ENA-, EFA- und reinen EFA-Netzwerkschnittstellen

Amazon EC2 bietet zwei Arten von Netzwerkschnittstellen:

ENA-Schnittstellen bieten alle herkömmlichen IP-Netzwerk- und Routing-Funktionen, die zur Unterstützung von IP-Netzwerken für eine VPC erforderlich sind. Weitere Informationen finden Sie unter Ermöglichen Sie Enhanced Networking mit ENA auf Ihren EC2 Instances.
EFA-Schnittstellen (EFA mit ENA) bieten sowohl das ENA-Gerät für IP-Netzwerke als auch das EFA-Gerät für die Kommunikation mit niedriger Latenz und hohem Durchsatz.
Nur-EFA-Schnittstellen unterstützen nur die Funktionen des EFA-Geräts, ohne das ENA-Gerät für herkömmliche IP-Netzwerke.

Die folgende Tabelle enthält einen Vergleich von ENA-, EFA- und Nur-EFA-Netzwerkschnittstellen.

	ENA	EFA (EFA mit ENA)	Nur-EFA
Unterstützt IP-Netzwerkfunktionalität	Ja	Ja	Nein
Können IPv6 Adressen zugewiesen IPv4 werden	Ja	Ja	Nein
Kann als primäre Netzwerkschnittstelle für die Instance verwendet werden	Ja	Ja	Nein
Wird auf das ENI-Anhangslimit der Instance angerechnet	Ja	Ja	Ja
Unterstützung für Instance-Typen	Unterstützt auf allen Nitro-basierten Instance-Typen	Unterstützte Instance-Typen	Unterstützte Instance-Typen
Benennung von Parametern in EC2 APIs	`interface`	`efa`	`efa-only`
Benennung von Feldern in der EC2 Konsole	Keine Auswahl	EFA mit ENA	Nur-EFA

Unterstützte Schnittstellen und Bibliotheken

EFAs unterstützt die folgenden Schnittstellen und Bibliotheken:

Öffnen Sie MPI 4.1 und höher
Intel MPI 2019 Update 5 und höher
NVIDIA Collective Communications Library (NCCL) 2.4.2 und neuer
AWS Neuron SDK Version 2.3 und höher

Unterstützte Instance-Typen

Alle der folgenden Instance-Typen unterstützen EFA. Darüber hinaus geben die Tabellen die RDMA-Lese- und RDMA-Schreibunterstützung für die Instance-Typen an.

Nitro v5

Instance-Typ	RDMA-Leseunterstützung	RDMA-Schreibunterstützung
Allgemeine Zwecke
8g, 24 x groß
8 g, 48 x groß
8 g, Metall, 24 x L
m8 g, Metall, 48 XL
Für Datenverarbeitung optimiert
c7gn.16xlarge
C7 Gn. Metall
c 8 g, 24 x groß
c8g.48x groß
c8g.metall-24xl
c8g.metall-48xl
RAM-optimiert
r8g.24x groß
r8g.48x groß
r8g.metall-24xl
r8g.metall-48xl
x 8 g, 24 x groß
x 8 g, 48 x groß
x 8 g, Metall, 24 XL
x 8 g, Metall, 48 XL
Speicheroptimiert
i7ie.48x groß
Beschleunigte Datenverarbeitung
p 5 en 48 x groß
TRN 2,48 x groß
trn2u.48x groß
High Performance Computing (HPC)
hpc7g.4xlarge
hpc7g.8xlarge
hpc7g.16xlarge

Nitro v4

Instance-Typ	RDMA-Leseunterstützung	RDMA-Schreibunterstützung
Allgemeine Zwecke
m6a.48xlarge
m6a.metal
m6i.32xlarge
m6i.metal
m6id.32xlarge
m6id.metal
m6idn.32xlarge
m6idn.metal
m6in.32xlarge
m6in.metal
m7a.48xlarge
m7a.metal-48xl
m7g.16xlarge
m7g.metal
m7gd.16xlarge
m7gd.metal
m7i.48xlarge
m7i.metal-48xl
Für Datenverarbeitung optimiert
c6a.48xlarge
c6a.metal
c6gn.16xlarge
c6i.32xlarge
c6i.metal
c6id.32xlarge
c6id.metal
c6in.32xlarge
c6in.metal
c7a.48xlarge
c7a.metal-48xl
c7g.16xlarge
c7g.metal
c7gd.16xlarge
C7GD. Metall
c7i.48xlarge
c7i.metal-48xl
RAM-optimiert
r6a.48xlarge
r6a.metal
r6i.32xlarge
r6i.metal
r6idn.32xlarge
r6idn.metal
r6in.32xlarge
r6in.metal
r6id.32xlarge
r6id.metal
r7a.48xlarge
r7a.metal-48xl
r7g.16xlarge
r7g.metal
r7gd.16xlarge
r7gd.metall
r7i.48xlarge
r7i.metal-48xl
r7iz.32xlarge
r7iz.metal-32xl
u7i-6tb.112x groß
u7i-8 tb.112x groß
u7i-12tb.224x groß
u7in-16 tb.224x groß
u7in-24 tb.224x groß
u7in-32 TB. 224x groß
u7inh-32 TB. 480x groß
x2idn.32xlarge
x2idn.metal
x2iedn.32xlarge
x2iedn.metal
Speicheroptimiert
i4g.16xlarge
i4i.32xlarge
i4i.metal
im4gn.16xlarge
Beschleunigte Datenverarbeitung
f 2.48x groß
g 6,8 x groß
g 6.12 x groß
g 6.16 x groß
g 6.24 x groß
g 6,48 x groß
g 6e, 8 x groß
g6e.12x groß
g6e.16x groß
g6e.24x groß
g6e.48x groß
gr 6,8 x groß
p5.48xlarge
p 5e. 48 x groß
trn1.32xlarge
trn1n.32xlarge
High Performance Computing (HPC)
hpc6a.48xlarge
hpc6id.32xlarge
hpc7a.12xlarge
hpc7a.24xlarge
hpc7a.48xlarge
hpc7a.96xlarge

Nitro v3

Instance-Typ	RDMA-Leseunterstützung	RDMA-Schreibunterstützung
Allgemeine Zwecke
m5dn.24xlarge
m5dn.metal
m5n.24xlarge
m5n.metal
m5zn.12xlarge
m5zn.metal
Für Datenverarbeitung optimiert
c5n.9xlarge
c5n.18xlarge
c5n.metal
RAM-optimiert
r5dn.24xlarge
r5dn.metal
r5n.24xlarge
r5n.metal
x2iezn.12xlarge
x2iezn.metal
Speicheroptimiert
i3en.12xlarge
i3en.24xlarge
i3en.metal
Beschleunigte Datenverarbeitung
dl1.24xlarge
dl2q.24xlarge
g4dn.8xgroß
g4dn.12xgroß
g4dn.16xgroß
g4dn.metal
g5.8xlarge
g5.12xlarge
g5.16xlarge
g5.24xlarge
g5.48xlarge
inf1.24xlarge
p3dn.24xgroß
p4d.24xgroß
p4de.24xlarge
vt1.24xlarge

anchor anchor anchor

Instance-Typ	RDMA-Leseunterstützung	RDMA-Schreibunterstützung
Allgemeine Zwecke
8g, 24 x groß
8 g, 48 x groß
8 g, Metall, 24 x L
m8 g, Metall, 48 XL
Für Datenverarbeitung optimiert
c7gn.16xlarge
C7 Gn. Metall
c 8 g, 24 x groß
c8g.48x groß
c8g.metall-24xl
c8g.metall-48xl
RAM-optimiert
r8g.24x groß
r8g.48x groß
r8g.metall-24xl
r8g.metall-48xl
x 8 g, 24 x groß
x 8 g, 48 x groß
x 8 g, Metall, 24 XL
x 8 g, Metall, 48 XL
Speicheroptimiert
i7ie.48x groß
Beschleunigte Datenverarbeitung
p 5 en 48 x groß
TRN 2,48 x groß
trn2u.48x groß
High Performance Computing (HPC)
hpc7g.4xlarge
hpc7g.8xlarge
hpc7g.16xlarge

Um die verfügbaren Instance-Typen zu sehen, die EFAs in einer bestimmten Region unterstützt werden

Die verfügbaren Instance-Typen variieren je nach Region. Um die verfügbaren Instance-Typen zu sehen, die EFAs in einer Region unterstützt werden, verwenden Sie den describe-instance-typesBefehl mit dem --region Parameter. Schließen Sie den Parameter --filters ein, um die Ergebnisse auf die Instance-Typen zu beschränken, die EFA unterstützen, und den Parameter --query, um die Ausgabe auf den Wert von InstanceType zu beschränken.


aws ec2 describe-instance-types  --region us-east-1  --filters Name=network-info.efa-supported,Values=true  --query "InstanceTypes[*].[InstanceType]"  --output text | sort

Unterstützte Betriebssysteme

Die Betriebssystemunterstützung ist je nach Prozessortyp unterschiedlich. Die folgende Tabelle zeigt die unterstützten Betriebssysteme.

Betriebssystem	Intel/AMD (`x86_64`)-Instance-Typen	AWS Graviton (`arm64`) -Instanztypen
Amazon Linux 2023	✓	✓
Amazon Linux 2	✓	✓
RHEL 8 und 9	✓	✓
Debian 11 und 12	✓	✓
Rocky Linux 8 und 9	✓	✓
Ubuntu 20.04, 22.04 und 24.04	✓	✓
SUSE Linux Enterprise 15 SP2 und höher	✓	✓
OpenSUSE Leap 15.5 und höher	✓

Anmerkung

Ubuntu 20.04 unterstützt bei Verwendung mit dl1.24xlarge-Instances die direkte Peer-Unterstützung.
Einige der aufgelisteten Betriebssysteme werden möglicherweise nicht von Intel MPI unterstützt. Wenn Sie Intel MPI verwenden, lesen Sie in der Intel MPI-Dokumentation nach, ob Ihr Betriebssystem unterstützt wird.

EFA-Einschränkungen

EFAs haben die folgenden Einschränkungen:

Anmerkung

EFA-Verkehr bezieht sich auf den Verkehr, der über das EFA-Gerät entweder über eine EFA- (EFA mit ENA) oder eine Nur-EFA-Schnittstelle übertragen wird.

RDMA-Schreibvorgänge werden nicht bei allen Instance-Typen unterstützt. Weitere Informationen finden Sie unter Unterstützte Instance-Typen.
EFA-Verkehr zwischen DL1 P4D/P4DE/-Instances und anderen Instance-Typen wird derzeit nicht unterstützt.
Instance-Typen, die mehrere Netzwerkkarten unterstützen, können mit einer EFA pro Netzwerkkarte konfiguriert werden. Alle anderen unterstützten Instance-Typen unterstützen nur einen EFA pro Instance.
Für c7g.16xlarge, m7g.16xlarge und r7g.16xlarge werden Dedicated Instances und Dedicated Hosts nicht unterstützt, wenn ein EFA angefügt ist.
EFA-Verkehr kann Availability Zones nicht überschreiten oder. VPCs Dies gilt nicht für normalen IP-Verkehr vom ENA-Gerät einer EFA-Schnittstelle.
Der Datenverkehr von EFA kann nicht umgeleitet werden. Normaler IP-Datenverkehr vom ENA-Gerät einer EFA-Schnittstelle bleibt umleitbar.
EFA wird auf AWS Outposts nicht unterstützt.
Das EFA-Gerät einer EFA-Schnittstelle (EFA mit ENA) wird auf Windows-Instances nur für Anwendungen unterstützt, die auf dem AWS Cloud Digital Interface Software Development Kit (AWS CDI SDK) basieren. Wenn Sie eine EFA-Schnittstelle (EFA mit ENA) an eine Windows-Instance für Anwendungen anhängen, die nicht auf dem CDI-SDK basieren, funktioniert diese als ENA-Schnittstelle, jedoch ohne die zusätzlichen EFA-Gerätefunktionen. Die reine EFA-Schnittstelle wird von AWS CDI basierten Anwendungen unter Windows oder Linux nicht unterstützt. Weitere Informationen finden Sie im AWS Cloud Digital Interface Software Development Kit (AWS CDI SDK) -Benutzerhandbuch.

EFA-Preisgestaltung

EFA ist als optionale EC2 Amazon-Netzwerkfunktion verfügbar, die Sie auf jeder unterstützten Instance ohne zusätzliche Kosten aktivieren können.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Die Netzwerkleistung in Windows optimieren

Erste Schritte mit EFA und MPI

Nächstes Thema:

Erste Schritte mit EFA und MPI

Vorheriges Thema:

Die Netzwerkleistung in Windows optimieren

Brauchen Sie Hilfe?

Auf dieser Seite

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden

Elastic Fabric Adapter für KI/ML- und HPC-Workloads auf Amazon EC2

Inhalt

EFA-Grundlagen

Anmerkung

Unterschiede zwischen ENA-, EFA- und reinen EFA-Netzwerkschnittstellen

Unterstützte Schnittstellen und Bibliotheken

Unterstützte Instance-Typen

Um die verfügbaren Instance-Typen zu sehen, die EFAs in einer bestimmten Region unterstützt werden

Unterstützte Betriebssysteme

Anmerkung

EFA-Einschränkungen

Anmerkung

EFA-Preisgestaltung

Nächstes Thema:

Vorheriges Thema:

Brauchen Sie Hilfe?

Auf dieser Seite

Related resources

Hat Ihnen diese Seite geholfen?

Related resources

Im Gegensatz zu einem herkömmlichen HPC-Software-Stack, der EFA verwendet.