Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Chargement de données dans Amazon S3 Express One Zone avec Amazon sur EMR EKS
Avec les EMR versions 7.2.0 et supérieures d'Amazon, vous pouvez utiliser Amazon EKS avec EMR la classe de stockage Amazon S3 Express One Zone pour améliorer les performances lors de l'exécution de tâches et de charges de travail. S3 Express One Zone est une classe de stockage Amazon S3 à zone unique à hautes performances qui fournit un accès aux données constant à un chiffre en millisecondes pour la plupart des applications sensibles à la latence. À son lancement, S3 Express One Zone offre la latence la plus faible et les meilleures performances de stockage d’objets cloud dans Amazon S3.
Prérequis
Avant de pouvoir utiliser S3 Express One Zone avec Amazon EMR activéEKS, vous devez remplir les conditions suivantes :
-
Après avoir configuré Amazon EMR surEKS, créez un cluster virtuel.
Bien démarrer avec S3 Express One Zone
Suivez ces étapes pour commencer à utiliser S3 Express One Zone
-
Ajoutez l'
CreateSession
autorisation à votre rôle d'exécution des tâches. Lorsque S3 Express One Zone exécute initialement une action telle queGET
ouPUT
sur un objet S3, la classe de stockage appelleCreateSession
en votre nom.LIST
Voici un exemple de la procédure à suivre pour accorder l'CreateSession
autorisation.{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Resource": "arn:aws:s3express:
<AWS_REGION>
:<ACCOUNT_ID>
:bucket/DOC-EXAMPLE-BUCKET
", "Action": [ "s3express:CreateSession" ] } ] } -
Vous devez utiliser le connecteur Apache Hadoop S3A pour accéder aux compartiments S3 Express. Modifiez donc votre Amazon S3 URIs pour utiliser le
s3a
schéma d'utilisation du connecteur. S'ils n'utilisent pas le schéma, vous pouvez modifier l'implémentation du système de fichiers que vous utilisez pours3
et less3n
schémas.Pour modifier le schéma
s3
, spécifiez les configurations de cluster suivantes :[ { "Classification": "core-site", "Properties": { "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
Pour modifier le schéma s3n, spécifiez les configurations de cluster suivantes :
[ { "Classification": "core-site", "Properties": { "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
-
Dans votre configuration Spark-Submit, utilisez le fournisseur d'informations d'identification d'identité Web.
"spark.hadoop.fs.s3a.aws.credentials.provider=com.amazonaws.auth.WebIdentityTokenCredentialsProvider"