Sicherstellung verfügbarer IP-Adressen für einen EMR-Cluster auf EC2

Starten Sie Cluster in einer VPC mit Amazon EMR

Nachdem Sie ein Subnetz zum Hosten von Amazon-EMR-Clustern konfiguriert haben, starten Sie den Cluster in diesem Subnetz, indem Sie die zugewiesene Subnetz-ID beim Erstellen des Clusters angeben.

Anmerkung

Amazon EMR unterstützt private Subnetze in Version 4.2 und höher.

Wenn der Cluster gestartet wird, fügt Amazon EMR Sicherheitsgruppen hinzu, je nachdem, ob der Cluster in privaten oder öffentlichen Subnetzen der VPC gestartet wird. Alle Sicherheitsgruppen ermöglichen einen Zugang über Port 8443 für die Kommunikation mit dem Amazon-EMR-Service. Die IP-Adressbereiche sind jedoch für öffentliche und private Subnetze unterschiedlich. Amazon EMR verwaltet all diese Sicherheitsgruppen und muss dem AWS Bereich im Laufe der Zeit möglicherweise weitere IP-Adressen hinzufügen. Weitere Informationen finden Sie unter Steuern Sie den Netzwerkverkehr mit Sicherheitsgruppen für Ihren Amazon EMR-Cluster.

Zum Verwalten des Cluster in einer VPC fügt Amazon EMR dem Primärknoten ein Netzwerkgerät an und verwaltet ihn über dieses Gerät. Sie können dieses Gerät mithilfe der Amazon EC2 API-Aktion anzeigen DescribeInstances. Wenn Sie dieses Gerät ändern, fällt der Cluster möglicherweise aus.

Console

Um einen Cluster mit der Konsole in einer VPC zu starten

Melden Sie sich bei der AWS Management Console an und öffnen Sie die Amazon EMR-Konsole unter https://console.aws.amazon.com/emr.
Wählen Sie EC2 im linken Navigationsbereich unter EMR on die Option Clusters und dann Create cluster aus.
Gehen Sie unter Networking zum Feld Virtual Private Cloud (VPC). Geben Sie den Namen Ihrer VPC ein oder wählen Sie Durchsuchen, um Ihre VPC auszuwählen. Wählen Sie alternativ VPC erstellen, um eine VPC zu erstellen, die Sie für Ihren Cluster verwenden können.
Wählen Sie alle anderen Optionen aus, die für Ihren Cluster gelten.
Um Ihren Cluster jetzt zu starten, wählen Sie Cluster erstellen aus.

AWS CLI

Um einen Cluster in einer VPC zu starten mit dem AWS CLI

Anmerkung

Das AWS CLI bietet keine Möglichkeit, automatisch eine NAT-Instance zu erstellen und sie mit Ihrem privaten Subnetz zu verbinden. Um jedoch einen S3-Endpunkt in Ihrem Subnetz zu erstellen, können Sie die Amazon-VPC-CLI-Befehle nutzen. Verwenden Sie die Konsole zum Erstellen von NAT-Instances und Starten von Clustern in einem privaten Subnetz.

Nachdem Sie Ihre VPC konfiguriert haben, können Sie darin vorhandene Amazon-EMR-Cluster mithilfe des Unterbefehls create-cluster mit dem Parameter --ec2-attributes starten. Verwenden Sie den Parameter --ec2-attributes, um das VPC-Subnetz für den Cluster anzugeben.

Um einen Cluster in einem bestimmten Subnetz zu erstellen, geben Sie den folgenden Befehl ein, myKey ersetzen Sie ihn durch den Namen Ihres EC2 Amazon-Schlüsselpaars und 77XXXX03 ersetzen Sie ihn durch Ihre Subnetz-ID.
```
aws emr create-cluster --name "Test cluster" --release-label emr-4.2.0 --applications Name=Hadoop Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey,SubnetId=subnet-77XXXX03 --instance-type m5.xlarge --instance-count 3
```
Wenn Sie die Instance-Anzahl ohne den --instance-groups-Parameter angeben, wird ein einzelner Primärknoten gestartet. Die verbleibenden Instances werden dabei als Core-Knoten gestartet. Alle Knoten verwenden den im Befehl angegebenen Instance-Typ.

Anmerkung
Wenn Sie noch nicht die standardmäßige Amazon EMR-Servicerolle und das EC2 Instanzprofil erstellt haben, geben Sie ein, um sie aws emr create-default-roles zu erstellen, bevor Sie den create-cluster Unterbefehl eingeben.

Sicherstellung verfügbarer IP-Adressen für einen EMR-Cluster auf EC2

Um sicherzustellen, dass beim Start ein Subnetz mit ausreichend freien IP-Adressen verfügbar ist, überprüft die EC2 Subnetzauswahl die IP-Verfügbarkeit. Der Erstellungsprozess verwendet ein Subnetz mit der erforderlichen Anzahl an IP-Adressen, um Kern-, Primär- und Taskknoten nach Bedarf zu starten, auch wenn bei der ersten Erstellung nur Kernknoten für den Cluster erstellt werden. EMR überprüft während der Erstellung die Anzahl der IP-Adressen, die zum Starten von Primär- und Taskknoten erforderlich sind, und berechnet separat die Anzahl der IP-Adressen, die zum Starten von Kernknoten benötigt werden. Die Mindestanzahl der erforderlichen Primär- und Task-Instances oder Knoten wird automatisch von Amazon EMR bestimmt.

Wichtig

Wenn keine Subnetze in der VPC ausreichend für wichtige Knoten verfügbar sind IPs , wird ein Fehler zurückgegeben und der Cluster wird nicht erstellt.

In den meisten Bereitstellungsfällen gibt es einen Zeitunterschied zwischen den einzelnen Starts von Kern-, Primär- und Taskknoten. Darüber hinaus ist es möglich, dass sich mehrere Cluster ein Subnetz teilen. In diesen Fällen kann die Verfügbarkeit von IP-Adressen schwanken und nachfolgende Task-Node-Starts können beispielsweise durch verfügbare IP-Adressen eingeschränkt werden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Richten Sie eine VPC zum Hosten von Amazon EMR-Clustern ein

Beispielrichtlinien für private Subnetze, die auf Amazon S3 zugreifen