-Übersicht Voraussetzungen Erste Schritte Überlegungen

Daten in Amazon S3 Express One Zone hochladen

-Übersicht

Mit Amazon EMR 6.15.0 und höher können Sie Amazon EMR mit Apache Spark in Verbindung mit der Speicherklasse Amazon S3 Express One Zone verwenden, um die Leistung Ihrer Spark-Aufträge zu verbessern. Amazon EMR-Versionen 7.2.0 und höher unterstützen auch HBase, Flink und Hive, sodass Sie auch von S3 Express One Zone profitieren können, wenn Sie diese Anwendungen verwenden. S3 Express One Zone ist eine S3-Speicherklasse für Anwendungen, die häufig mit Hunderttausenden Anfragen pro Sekunde auf Daten zugreifen. Zum Zeitpunkt seiner Veröffentlichung bietet S3 Express One Zone den Cloud-Objektspeicher mit der niedrigsten Latenz und der höchsten Leistung in Amazon S3.

Voraussetzungen

Berechtigungen für S3 Express One Zone – Wenn S3 Express One Zone eine Aktion wie GET, LIST oder PUT für ein Amazon-S3-Objekt aufruft, ruft die Speicherklasse CreateSession in Ihrem Namen auf. Ihre IAM-Richtlinie muss die s3express:CreateSession-Genehmigung zulassen, damit der S3A-Konnektor die CreateSession-API aufrufen kann. Ein Beispielrichtlinie mit dieser Berechtigung finden Sie unter Erste Schritte mit Amazon S3 Express One Zone.
S3A-Konnektor – Um Ihren Spark-Cluster für den Zugriff auf Daten aus einem Amazon-S3-Bucket zu konfigurieren, der die Speicherklasse S3 Express One Zone verwendet, müssen Sie den Apache-Hadoop-Konnektor S3A verwenden. Um den Konnektor zu verwenden, stellen Sie sicher, dass alle S3-URIs das s3a-Schema verwenden. Wenn dies nicht der Fall ist, können Sie die Dateisystemimplementierung, die Sie für s3- und s3n-Schemata verwenden, ändern.

Um das s3-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an:


[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]

Um das s3n-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an:


[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]

Erste Schritte mit Amazon S3 Express One Zone

Themen

Eine Berechtigungsrichtlinie erstellen
Ihren Cluster erstellen und konfigurieren
Konfigurationsübersicht

Eine Berechtigungsrichtlinie erstellen

Bevor Sie einen Cluster erstellen können, der Amazon S3 Express One Zone verwendet, müssen Sie eine IAM-Richtlinie erstellen, die an das Amazon-EC2-Instance-Profil für den Cluster angefügt wird. Die Richtlinie muss über Berechtigungen für den Zugriff auf die Speicherklasse S3 Express One Zone verfügen. Die folgende Beispielrichtlinie zeigt, wie die erforderliche Berechtigung gewährt wird. Nachdem Sie die Richtlinie erstellt haben, ordnen Sie die Richtlinie der Instance-Profilrolle zu, mit der Sie Ihren EMR-Cluster erstellen, wie im Abschnitt Ihren Cluster erstellen und konfigurieren beschrieben.

Ihren Cluster erstellen und konfigurieren

Erstellen Sie als Nächstes einen Cluster, auf dem Spark, HBase, Flink oder Hive mit S3 Express One Zone ausgeführt wird. Die folgenden Schritte beschreiben einen allgemeinen Überblick über die Erstellung eines Clusters in der AWS-Managementkonsole:

Navigieren Sie zur Amazon-EMR-Konsole und wählen Sie in der Seitenleiste Cluster aus. Wählen Sie dann Create cluster (Cluster erstellen) aus.
Wenn Sie Spark verwenden, wählen Sie Amazon EMR-Version emr-6.15.0 oder höher. Wenn Sie HBase, Flink oder Hive verwenden, wählen Sie eine höhere Version. emr-7.2.0
Wählen Sie die Anwendungen aus, die Sie in Ihren Cluster aufnehmen möchten, z. B. Spark, HBase oder Flink.

Um Amazon S3 Express One Zone zu aktivieren, geben Sie im Abschnitt Softwareeinstellungen eine Konfiguration ein, die dem folgenden Beispiel ähnelt. Die Konfigurationen und empfohlenen Werte werden in dem Abschnitt Konfigurationsübersicht beschrieben, der diesem Verfahren folgt.


[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3a.aws.credentials.provider": "software.amazon.awssdk.auth.credentials.InstanceProfileCredentialsProvider",
      "fs.s3a.change.detection.mode": "none",
      "fs.s3a.endpoint.region": "aa-example-1",
      "fs.s3a.select.enabled": "false"
    }
  },
  {
    "Classification": "spark-defaults",
    "Properties": {
      "spark.sql.sources.fastS3PartitionDiscovery.enabled": "false"
    }
  }
]

Wählen Sie im Abschnitt EC2-Instance-Profil für Amazon EMR aus, ob Sie eine vorhandene Rolle und eine Rolle mit der angehängten Richtlinie verwenden möchten, die Sie im obigen Abschnitt Eine Berechtigungsrichtlinie erstellen erstellt haben.
Konfigurieren Sie die restlichen Cluster-Einstellungen entsprechend Ihrer Anwendung und wählen Sie dann Create cluster (Cluster erstellen) aus.

Konfigurationsübersicht

In den folgenden Tabellen werden die Konfigurationen und vorgeschlagenen Werte beschrieben, die Sie angeben sollten, wenn Sie einen Cluster einrichten, der S3 Express One Zone mit Amazon EMR verwendet, wie im Abschnitt Ihren Cluster erstellen und konfigurieren beschrieben.

S3A-Konfigurationen

Parameter	Standardwert	Empfohlener Wert	Erklärung
`fs.s3a.aws.credentials.provider`	Wenn nicht angegeben, wird `AWSCredentialProviderList` in der folgenden Reihenfolge verwendet: `TemporaryAWSCredentialsProvider`, `SimpleAWSCredentialsProvider`, `EnvironmentVariableCredentialsProvider`, `IAMInstanceCredentialsProvider`.	`software.amazon.awssdk.auth.credentials.InstanceProfileCredentialsProvider`	Die Amazon-EMR-Instance-Profilrolle sollte die Richtlinie haben, die es dem S3A-Dateisystem ermöglicht, `s3express:CreateSession` aufzurufen. Andere Anmeldeinformationsanbieter sind ebenfalls möglich, wenn sie über die Berechtigungen für S3 Express One Zone verfügen.
`fs.s3a.endpoint.region`	Null	Der AWS-Region Ort, an dem Sie den Bucket erstellt haben.	Die Logik zur Regionsauflösung funktioniert nicht mit der Speicherklasse S3 Express One Zone.
`fs.s3a.select.enabled`	`true`	`false`	Amazon S3 `select` wird mit der Speicherklasse S3 Express One Zone nicht unterstützt.
`fs.s3a.change.detection.mode`	`server`	Keine	Die Änderungserkennung von S3A erfolgt, indem MD5-basierte `etags` geprüft werden. Die Speicherklasse S3 Express One Zone unterstützt MD5 `checksums` nicht.

Spark-Konfigurationen

Parameter	Standardwert	Empfohlener Wert	Erklärung
`spark.sql.sources.fastS3PartitionDiscovery.enabled`	`true`	`false`	Die interne Optimierung verwendet einen S3-API-Parameter, den die Speicherklasse S3 Express One Zone nicht unterstützt.

Hive-Konfigurationen

Parameter	Standardwert	Empfohlener Wert	Erklärung
`hive.exec.fast.s3.partition.discovery.enabled`	`true`	`false`	Die interne Optimierung verwendet einen S3-API-Parameter, den die Speicherklasse S3 Express One Zone nicht unterstützt.

Überlegungen

Beachten Sie Folgendes, wenn Sie Apache Spark in Amazon EMR in die Speicherklasse S3 Express One Zone integrieren:

Der S3A-Konnektor ist erforderlich, um S3 Express One Zone mit Amazon EMR zu verwenden. Nur S3A verfügt über die Features und Speicherklassen, die für die Interaktion mit S3 Express One Zone erforderlich sind. Schritte zum Einrichten des Konnektors finden Sie unter Voraussetzungen.
Die Speicherklasse Amazon S3 Express One Zone unterstützt SSE-S3 SSE-KMS Verschlüsselung. Weitere Informationen finden Sie unter Server-side Verschlüsselung mit Amazon S3.
Die Speicherklasse Amazon S3 Express One Zone unterstützte keine Schreibvorgänge mit dem S3A FileOutputCommitter. Schreibvorgänge mit dem S3A FileOutputCommitter in Buckets von S3 Express One Zone führen zu einem Fehler: InvalidStorageClass: The storage class you specified is not valid.
Amazon S3 Express One Zone wird mit Amazon EMR-Versionen 6.15.0 und höher auf EMR auf EC2 unterstützt. Darüber hinaus wird es auf Amazon EMR-Versionen 7.2.0 und höher, auf Amazon EMR auf EKS und auf Amazon EMR Serverless unterstützt.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Daten aus Amazon S3 uploaden

Laden Sie Daten hoch mitAWS DataSync